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REMARKS 

Claims 13-17, 21-22, and 63-64 stand rejected under 35 U.S.C. § 103(a) as being 
unpatentable over alleged AAPA (prior art in US 2005/0080951) in view of Vorbach (US 
2007/0299993). This rejection is respectfully traversed. 

Claim 13 recites "a first buffer having a first programmable buffer stage depth 
comprising a first number of buffer stages" and "a second buffer having a second programmable 
buffer stage depth comprising a second number of buffer stages." The Office Action admits that the 
AAPA fails to disclose these limitations. Office Action at 3. The Office Action relies on Vorbach' s 
FIFO buffers as teaching these elements. According to the Office Action, Vorbach's FIFO buffers 
have adjustable latencies. The Office Action cites to paragraphs 1 14-117 of Vorbach as showing 
the missing features of claim 13 and to support its conclusion of obviousness. 

Applicant respectfully submits, however, that the Vorbach reference is not valid 
102(e)/l 03(a) prior art against the present application. The Vorbach reference is a continuation-in- 
part of application no. 09/967,847, which was filed on September 28, 2001, and issued as U.S. 
Patent no. 7,210,129. The '847 application does not contain the disclosure that the Office Action 
now relies upon. The Vorbach reference also claims priority to provisional application no. 
60/317,876, filed on September 7, 2001. Provisional application no. 60/317,876 has not been 
published and does not appear on the PAIR system. As such, there is no evidence that provisional 
application no. 60/317,876 contains the additional disclosure relied upon in the Office Action either. 

The Vorbach reference also claims priority to PCT application PCT/EP02/2403, which 
was filed on March 5, 2002. PCT/EP02/2403 was published in German and cannot be a valid 
102(e) reference. See 35 U.S.C. § 102(e)("an international application filed under the tireaty defined 
in section 351(a) shall have the effects for the purposes of this subsection of an application filed in 
the United States onlv if tiie international application designated the United States and was 



' Applicant notes that the Vorbach reference was filed without figures or a description of drawings section, yet the 
specification of the printed publication refers to many figures. Applicant believes that the Vorbach reference may not 
constitute enabling prior art. 
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published under Article 21(2) of such treaty in the English language ."). Applicant provides a copy 
of PCT/EP02/2403 for the Examiner's convenience.^ Accordingly, the effective date of the 
Vorbach reference is its 371 date of February 17, 2005, which is after the filing date of the present 
application. As such, the additional disclosure relied upon in the Office Action (i.e., paragraphs 
1 14-117) was not prior in time to the subject matter of the present application and cannot be cited to 
cure the deficiencies of the AAPA. 

Accordingly, claims 13-17, 21-22, and 63-64 are allowable over the cited combination. 
The rejection should be withdrawn and the claims allowed. 

Claim 20 stands rejected under 35 U.S.C. § 103(a) as being unpatentable over the AAPA 
in view of Vorbach and Jander (US 5,956,492). This rejection is respectfully traversed. Claim 20 
depends from claim 13. As such, claim 20 is allowable over the AAPA and Vorbach combination. 
Jander does not cure the deficiencies of the AAPA and Vorbach combination. Accordingly, the 
rejection should be withdrawn and the claim allowed. 

In view of the above, Applicant believes the pending application is in condition for 

allowance. 

Dated: February 24, 2009 Respectfully submitted, 



^ The English language Abstract portion of the PCT publication does not disclose programmable buffer stages or FIFO's 
with programmable latencies either. 
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^ (57) Abstract- Tlic invention relates to procedures and methods for administering and transferring data witliin multi-dimensional 
* systems consisting of transmitters and receivere. The division of a data stream into several independent branches and the sub.sequent 
combination sequential collection of the individual branches to form a data smeam can be carried out in a simple manner. The 
^ individual data streams are re-combined in a correct time sequence. Said inventive method is particularly useful for processmg 
5 re-entiant codes and is suitable for configurable architectures wherein efficient control of the configuration and reconfiguration is 
•< highly important. 

I (57) Zusammenfassung: Die Ertlndung beschriebt Verfahren und Methoden zur Verwaltung und zum Transfer von Daten innerhalb 
< von mehrdimensionalen Anordnungen von Sendem und Empfangem. Das Aufteilen eines Datenstromes in mehrere unabhangige 
^ Zweige und das nachfolgende Zusammenfassen der einzelnen Zwreige zu einem Datenstrom soil einfach durchfiihrbar sem, wobei die 
5 einzelnen Datenstrome in der korrekten zcitlichen Reihenfolge wieder zusammengefasst werden. Insbesondere zur Abarbeitung von 
' reentrantem Code isi dieses Verfahren von besonderer Wichtigkeit. Das beschriebene Verfahren ist insbesondere fiSr konfigunerbare 
" Architekturen geeignei, die effiziente Steuerung der Konfiguration und Rekonfiguration findet besondere BeachWng. 
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Verfahren und Vorrichtungen zur Datenbe- und/oder 
Verarbeitung 



Beschreibung 

Die Erfindung beschriebt Verfahren und Methoden zur Verwal- 
tung und zum Transfer von Daten inne'rhalb von niehrdimensiona- 
len Anordnungen von Sendern und Empfangern. Das Aufteilen el- 
ites Datenstromes in mehrere unabhangige Zweige und das nach- 
folgende Zusammenf assen der einzelnen Zweige ,zu einem Daten- 
strom soil einfach durchfuhrbar sein, wobei die einzelnen- Da- 
tenstrome in der korrekten- zeitlichen .^Reihenf olge wieder zu- 
sairanengefasst werden. Insbesondere zur Abarbeitung von- reen- 
tranterti Code ist dieses Verfahren von .besonderer Wichtigkeit- . 
Das beschriebene Verfahren ist insbesondere fur konfigurier- 
bare Architekturen geeignet, die. effizlente Steuerung der 
Konfig.uratioh urid .Rekonfiguratlo-n fxndet besondere • Beachtung. 

Auf'gabe der Erfindung 1st es, Neues fiir die gewerbliche Nut- 
zung bereltzustellen. 
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Die Losung der Aufgabe wird unabhangig beansprucht. Bevorzug- 
te Ausftihrungsformen befinden sich in den Unteransprtichen. 

Unter einer rekonf igurierbaren Architektur werden vorliegend 
5 Bausteine (VPU) mit konf igurierbarer Funktion und/oder Ver- 
netzung verstanden, insbesondere integrierte Bausteine mit 
einer Mehrzahl von ein- oder mehrdimensional angeordneten 
arithmetischen und/oder logischen und/oder analogen und/oder 
speichernden und/oder intern/extern vernetzenden Baugruppen, 
10 die direkt oder durch ein Bussystem miteinander verbunden 
sind. 

■ Zur Gattung dieser Bausteine zahlen insbesondere systolische 
Arrays, neuronale Netze, Mehrprozessor Systeme, Prozessoren 

15 rait mehreren Rechenwerken und/oder logischen Zellen und/oder 
konununikativen/peripheren Zellen (10), Vernetzungs- und Netz- 
werkbausteine wie z.B. Crossbar-Schalter, ebenso wie bekannte 
Bausteine der Gattung FPGA, DPGA, Chameleon, XPUTER, etc.. 
Hingewiesen wird insbesondere in diesem Zusammenhang auf die 

20 folgenden Schutzrechte und Anmeldungen desselben Anmelders: P 
44 16 881.0-53, DE 19? 81 412.3,' DE 197 81 483.2, 
DE 196 54 846.2-53, DE 196 54 593.5-53, DE.19704 044.6-53, 
DE 198 80 129.7, DE 198 61 088,2-53, DE 1.99 80 312.9, 
PCT/DE 00/01869, DE 100' 36 627.9-33, p^3 iOO 28 397.7, 

25 DE 101 10 530.4, DE 101 11 014.5, PCT/EP 00/10516, 

EP 01 102 674.7, PACT02, PACT04, PACT05, PACT08, PACTIO., 
PACTll, PACT13, .PACT21, PACT13, PACTlSb,- PACT18 (a) , 
PACT25(a,b). Diese sind hiermit zu Of fenbarungszwecken 
vollumfanglich eingegliederf. 

30 

Die o.g. Architektur wird beispielhaft zur Verdeutlichung. 
herangezogen und im folgenden VPD genannt. Die Architektur 
besteht aus beliebigen arithmetischen, logischen- (auch Spei- 
■ 2 
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Cher) und/oder Speicherzellen und/oder Vernetzungszellen 
und/oder konraiunikativen/peripheren (10) Zellen (PAEs) , die zu 
einer ein- oder mehrdimensionalen Matrix (PA) angeordnet sein- 
konnen, wobei die Matrix unterschiedliche beliebig ausgestal- 
5 tete Zellen aufweisen kann, auch die Bussysteme werden dabei 
als Zellen verstanden. Der Matrix als ganzes oder Teilen da- 
von zugeordnet ist eine Konf igurationseinheit (CT) , die die 
Vernetzung und Funktion des PA beeinflulJt. 

10 

Beschreibung der Erfindung 

Die konfigurierbaren Zellen einer VPU mussen zur korrekten 
Verarbeitung von Daten miteinander synchronisiert werden. Da- 
zu dienen zwei unterschiedliche Protokolle, eines zur Syn- 

15 chronisation des Datenverkehrs und ein weiteres zur Ablauf- 
steuerung der Datenverarbeitung. Daten werden bevorzugt iiber 
eine Mehrzahl- konf igurierbarer Bussysteme Ubertragen. Konfi- 
gurierbare Bussysteme bedeutet insbesondere, dass beliebige 
PAEs Daten senden und die Verbindung zu.den Empfanger-PAEs, 

20 sowie insbesondere die Empf anger-PAEs beliebig konfigurierbar 
sind. 

Die Synchronisation des Datenverkehrs erfolgt bevorzugt durch 
Handshake-Protokolle, die mit.den Dat^n ubertragen werden. Jn 
25 der nachfolgenden Beschreibung werden einfache Handshakes so- 
wie komplexe Verfahren beschrieben, deren bevorzugte Anwen- 
dung von der jeweilig auszufiihrenden Applikation oder Appli- 
kationsmenge abhangig ist. 

30 Die Ablaufsteuerung erfolgt durch Signale (Trigger) die den 
Status einer PAE anzeigen. Trigger konnen unabhangig von den 
Daten uber frei konfigurierbare Bussysteme gefiihrt werden, 
d.h. k5nnen unterschiedliche Sender und/oder Empf anger besit- 

3 . ' •' • 
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zen und weisen bevorzugt ebenfalls Handshake-Protokolle auf . 
Trigger warden durch einen Status einer sendenen PAE gene- 
riert (z.B. Zero-Flag, Overflow- Flag, Negativ-Flag) , indem 
einzelne Zustande oder Koitibinationen weitergeleitet werden. 

5 

Datenverarbeitende Zellen (PAEs) innerhalb einer VPU konnen 
verscheidene VerarbeitungszustSnde annehmen, die vom Konfigu- 
rationszustand der Zellen und/oder eintreff enden oder einge- 

troffenen Triggern abhangen: 
10 „not configured" : 

Keine Datenverarbeitung 
„ configured" : 

GO alle eintreff enden Daten werden berechnet. 
STOP eintreff ende Daten werden nicht berechnet. 
15 STEP genau eine Berechnung wird durchgefuhrt . 

GO, STOP und STEP werden durch im folgenden beschriebene 
Trigger ausgelost. 

20 Handshake Synchronisation 

Ein besonders einfaches und dennoch sehr leistungsf ahiges 
Handshake-Protokoll, das bevorzugt bei der Obertragung yon 
Daten und Triggern Anwendung findet, wird nachfolgend be- 
schrieben. Die Steuerung der Handshakq;rProtokolle ist bevor- 
25 zugt fest in der Hardware vorgegeben und kann einen wesentli- 
chen Bestandteil des Datenverarbeitungparadigmas einer VPU 
darstellen. Die Grundlagen dieses Protokolles sind bereits in 
PACT02 beschrieben. 

Mit jeder von einem Sender uber einen beliebigeh Bus gesende- 
30 ten Information ,wird ein RDY-Signal mitgesendet, das die Giil- . 
tigkeit der Information anzeigt. 



wo 02/071249 



PCT/EP02/02403 



Der EiapfSrlger verarbeitet nur Informationen die mit einem 
RDY-Signal. versehen sind, alle anderen Informationen werden 
ignoriert. 

Sobald die Informationen vom Empf anger verarbeitet wurden und 
5 der Empfanger rieue Informationen entgegennehmen kann, zeigt 
er durch senden eines Quittierungssignales (ACK) dem Sender 
an, dafi dieser nehe Informationen absenden darf. Der Sender 
wartet immer auf das Eintreffen von ACK, bevor er erneut Da- 
ten absendet. 

10 Es wird zwischen zwei Betriebsarten unterschieden : 

a) „dependend" : Alle Eingange, die Informationen entgegenneh- 
men mussen ein gultiges RDY besitzen bevor die Information 
verarbeitet wird. Erst dann wird das ACK generiert. 

b) „independent" : Sobald ein Eingang, der Informationen ent- 
15 gegennimmt ein gtiltiges RDY besitzt, wird fur diesen bestimm- 

ten Eingang eifi ACK generiert, sofern der Eingang Oaten ent- 
gegennehmen kann, d.h. die vorhergegangenen Daten verarbeitet 
wurden; anspnsten wird auf die Verarbeitung der Daten gewar- 
tet. 

20 Die Durchfuhrung der Synchronisation und die Steuerung der 
Datenverarbeitung kann nach dem Stand der Technik durch eine 
fest implementierte Statemachine (siehe PACT02) , durch eine 
feingranular konf igurierte Zustandsmaschine (siehe PACTOl, 
PACT04) Oder vorzugsweise durch einen ..programmierbaren Se- 

25 quenzer (PACri3) erfolgen. Die programmierbare Statemachine 
wird entsprechend des aus.zufiihrenden Ablaufes konf iguriert . 
Der Baustein EPS448 von Altera (ALTERA Data Book 1993) reali- 
siert beispielsweise einen derartigen programmierbaren Se- 
quenzer. 

30 

Eine besondere Aufgabe von Handshake-Protokolle fiir VPUs ist 
die Durchfuhrung einer pipeline-art igen Datenverarbeitung, 
bei welcher insbesondere in jedem Taktzyklus Daten in jeder 

L ..... ' 5 
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PAE verabeitet warden konnen. Diese Forderung fuhrt zu beson- 
deren Ansprilchen an die Funktionsweise von Handshakes. Am 
Beispiel eines RDY/ACK Protokolls' wird die Problemstellung 
und Losung dieser Aufgabe aufgezeigt: 
5 ■ 

Figur la zeigt einen Aufbau einer Pipeline innerhalb einer 
VPU. Die Daten werden uber ( vorzugsweise konf igurierbare) 
Bussysteme (0107, 0108, 0109) an Register (0101, 0104) ge- 
fiihrt, denen eine ggf. datenverarbeitende Logik (0102, 0105) 

10 nachgeschaltet ist. Dieser ist eine Ausgabestufe (0103, 0106) 
" zugeordnet, die bevorzugt wieder ein Register enthalt, urn die 
Ergebnisse wieder auf einen Bus auf zuschalten. Sowohl uber 
die Bussysteme (0107, 0108, 0109) als auch durch die daten- 
verarbeitende Logik wird bevorzugt (0102, 0105) das RDY/ACK 

15 Protokoll zur Synchronisation tibertragen. 

Zwei Semantiken kommen fUr das RDY/ACK Protokoll in Frage: 

a) ACK bedeutet "Empf anger wird Daten tibernehmen" , mit dem- 
Effekt, dass die Pipeline in jedem Takt arbeitet. Es entsteht 
jedoch das Problem, dass aufgrund der hardwaretechnischen 

20 Realisierung im Fall eines Pipeline-Stall das ACK asynchron 
Uber alle angehaltenen Stufeh der Pipeline ISuft. Dies fUhrt 
zu erheblichen Problemen beim Zeitverhalten, insbesondere bei 
groiien VPUs und/oder hohen Taktf requenzen. 

b) ACK bedeutet "Empf anger hat Daten ^bernatnmen", mit dem Ef- 
25 fekt, dass. das ACK immer jeweils nur bis zur nachsten Stufe 

lauft und dort ein. Register vorhanden ist. Das dadurch ent- 
stehende Problem ist, dass die Pipeline aufgrund der Verzoge- 
rung des in der hardwaretechnischen Realisierung notwendigen 
Registers nur noch in jedem. zweiten Takt arbeitet. 

30 

Die L5sung der Aufgabe liegt in der Kombination beider Seman- 
tiken wie in Figur lb dargestellt, die die Stufeh 0101 bis 
0103 ausschnittsweise verdeutlicht . Auf den Bussystemen 
6 
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(0107, 0108, 0109) wird das Protokoll b) verwendet, indem eln 
Register (0110) das eintreffende RDY mit dem Einschreiben der 
iibertragenen Daten in ein Eingangsregister urn einen Takt ver- 
zdgert und als ACK wieder auf den Bus weiterleitet . Diese 
5 Stufe (0110) arbeitet quasi als Protokollkonverter zwischen 
einem Busprotokoll und dem Protokoll innerhalb einer daten- 
verarbeitenden Logik. 

Die datenverarbeitende Logik verv;endet das Protokoll a) . Die- 
. ses wird erzeugt durch einen nachgeschalteten Protokollkon- 

10 verter (0111) . Das besondere an 0111 ist, dass eine Voraussa- 
ge getroffen werden muss, ob die eintref f enden Daten von der 
datenverarbeitenden Logik auch tatsachlich vom Bussystem ab- 
genommen werden.. Dies wird dadurch gelost, dass ein zusatzli- 
ches Pufferregister (0112) in den Ausgangsstuf en (0103, 0106) 

15 ftir die auf das Bussystem zu (ibertragenden Daten eingefUhrt 
wird. Die durch die datenverarbeitende Logik generierten Da- 
ten werden zugleich an das Bussystem und in das Pufferregi- 
ster geschrieben. Kann der Bus die Daten nicht abnehmen, d.h. 
das ACK des Bussystems bleibt aus, sind die Daten im uPffer- 

20 register vorhariden und werden sobald das Bussystem bereit ist 
iiber einen Multiplexer (0113) auf das Bussystem geschaltet. 
Ist das Bussystem sofort zur Abnahme der Daten bereit, werden 
die Daten Ober Multiplexer (0113) den direkf auf den Bus wei- 
tergeleitet. Das Pufferregister ermSglicht die Quittierung 

25 mit der Seniantik a) , da so lange mit "EmpfSnger wird Daten 
iibernehmen" quittiert werden kann, wie das Pufferregister 
leer ist, da durch das Einschreiben in das Pufferregister si- 
chergestellt ist, dass die Daten nicht verloren gehen. 

30 

Trigger 

In VPU Bausteinen werden zur Ubertragung einfacher Informa.- 
tionen sogenannte Trigger verwendet, deren Gru'ndlagen in 
7 
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PACT08 beschrieben sind. Trigger werden mittels eines in Seg- 
ments aufgeteilten ein- oder mehrdimensionalen Bussystems 
iibertragen. Die einzelnen Segments konnen mit Treibern zur 
Verbesserung der Signalqualitat ausgestattet sein. Die jewei- 
5 ligen Triggerverbindungen, die iiber eine Verschaltung mehrere 
Segmente realisiert wird, wird vom Anwender programmiert und 
uber die CT konf iguriert . 

Trigger ubertragen beispielsweise vor allem, jedoch nicht 
aus-schlieiilich, die nachf olgenden Inf ormationen oder beliebi- 
10- ge Kombinationen dieser 

* Statusinf ormationen von Rechenwerken (ALUs), z.B. 

- Carry 

- Division by Zero 

- Zero 

15 - Negativ 

- Under-/Overflow 

* Ergebnisse von Vergleichen und/oder Schleifen 

* n-bit Inf ormationen (fur kleine n) 

* Interruptanforderungen, die intern oder extern gene- 
20 riert werden 

Trigger werden von beliebigen Zellen generiert und werden 
durch beliebige Ereignisse in den einzelnen Zellen angesteu- 
ert. Insbesondere konnen Trigger von ^Xner CT oder einer ex- 
25 ternen Einheit, die auBerhalb des Zellarrays oder des Bau- 
steines. generiert werden. 

Trigger werden von beliebigen Zellen empfangen und auf belie- 
bige Art ausgewertet, Insbesondere konnen Trigger von einer 
CT Oder einer externen Einheit, die aufierhalb des Zellarrays 
30 Oder des Bausteines ausgewertet werden. 

Trigger dienen hauptsachlich der Ablauf steuerung innerhalb 
einer VPU, beispielsweise ftir Vergleiche und/oder Schleifen. 

■ • 8 
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Datenpfade und/oder Verzweigungen k5nnen durch Trigger frei- 
gesphaltet (enabled) oder gesperrt (disabled) werden. 
Ein weiterer wesentlicher Einsatzbereich von Triggern ist das 
Synchronisieren und Ansteuern von Sequenzern, sowie deren In- 
5 ■ formationsaustausch; ebenso wie die Steuerung der Datenverar- 
beitung in den Zellen. 

Die Verwaltung von Triggern und die Steuerung der Datenverar- 
beitung kann nach dem Stand der Technik durch eine fest im- 
plementierte Statemachine (siehe PACT02, PACT08), durch eine 

10 feingranular konf igurierte Zustandsmaschine (siehe PACTOl, 
PACT04, PACT08, [Chameleon]) oder vorzugsweise durch eine 
programmierbare Statemachine (PACT13) erfolgen. Die program- 
raierbare Statemachine wird entsprechend des auszuf uhrenden 
Ablaufes konf iguriert . Der Baustein EPS4 48 von Altera [ALTERA 

15 Data Book 1993] realisiert beispielsweise einen derartigen 
progranunierbaren Sequenzer. 

Grundverfahren 

20 Die einfachen Synchronisationsverfahren mit Rdy/Ack Protokol- 
len erschweren die Verarbeitung von komplizierten DatenstrS- 
men, da der Aufwand zur Eirihaltung der korrekten Reihenfolge 
sehr hoch ist. Die korrekte Implement ierung ist Aufgabe des 
Programmierers . Weiterhin werden zusat^liche Ressourcen fiir 

25 die Implementierung benotigt. 

Im Folgenden wird ein einf aches Verfahren beschrieben, das 
diese Aufgabe lost.' 

tibertraqung l:n 

30 Dieser Fall ist trivial: Der Sender schreibt die Oaten auf 
den Bus . Die Daten liegen so lange stabil am Bus an, bis das 
ACK als Quittierung von alien Empfangern eingetroffen ist 
(die Oaten „stehen"). RDY wird gepulst, d.h. liegt genau fiir 
9 
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einen Takt an, dainit die Daten nicht f alschlicherweise mehr- 
fach gelesen werden. Sofern das RDY implementierungsabhangig 
Multiplexer und/oder Tore und/oder weitere geeignete Obertra- 
gungselemente ansteuert, die den Datentransf er steuern, wird 
5 diese Ansteueruhg fur den Zeitraum der Dateniibertragung ge- 
speichert (RdyHold) . Dies bewirkt dass die Stellung der Tore 
und/oder Multiplexer und/oder weitere geeignete Obertragungs- 
elemente auch nach dem RDY-Puls gaitig bleibt und damit wei- 
terhin giiltige Daten auf dem Bus anliegen. 

10 Sobald ein Empf anger die Daten ubernommen hat, quittiert er 
mittels eines ACK (vgl. PACT02) . Es soil nochmals erwahnt 
werden, dass die korrekten Daten bis zur Abnahme durch den 
Oder die Empf anger auf dem Bus anliegen. ACK wird vorzugswei- 
se ebenfalls als Puis ubertragen. Durchlauft ein ACK einen 

15 Multiplexer und/oder Tor und/oder ein weiteres geeignetes 

Obertragungselement, in welchen das RDY zuvor zur Speicherung 
der Ansteuerung diente (s. RdyHold), wird diese Ansteuerung 
nunmehr gel5scht. 

Zur Obertragung von l:n ist es sinnvoll das das ACK so lange 
20 2U halt en, d.h. kein gepulstes ACK zu verwenden, bis ein neu- 
es RDY eintrifft, d.h.' das ACK „steht" ebenfalls. An jedem 
Busknoten, welcher eine Verzweigung zu mehreren Empfangern 
darstellt, werden die eintref f enden ACKs miteinander verundet 
(AND) . Da die ACKs „stehen" ergibt sigh letzendlich ein „ste- 
25 hehdes"' ACK beim Sender, das die ACKs aller EmpfSnger repra- 
sentiert. Urn die Laufzeit der ACK-Kette durch die UND-Gatter 
moglichst gering zu halten, wird empf ohlen eine baumf ormige 
Busstruktur zu wahlen, bzw. wShrend des Routings des abzuar- 
beit.enden Programmes zu erzeugen. 
30 Stehende ACKs kSnnen nunmehr implementierungsabhangig zu dem 
Problem fuhren, dass RDY Signale geACKt werden, ftir die ei- 
gentlich kein ACK vorlag, da ein altes ACK zu lange stand. 
Eine LSsung daftir ist, ACK grundsat?:lich zu pulsen und das 
10 
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eintreffende ACK jedes Zweiges an einer Verzweigung zu spei- 
chern. Erst wenn die ACKs aller Zweige eintrafen wird ein 
ACK- Puis in Richtung Sender weitergeleitet und gleichzeitig 
alle gespeicherten ACKs (AckHold) und ggf . die RdyHold ge- 

5 loscht. 

Figur Ic zeigt die Grundlagen des Verfahrens. Ein Sender 0120 
versendt Daten iiber ein Bussystem 0121 zusaitimen mit einem RDY 
0122. Mehrere Empf anger (0123, 0124, 0125, 0126) erhalten die 
10 Daten und das dazugehorenden RDY (0122) . Jeder Empf anger ge- 
neriert ein ACK (0127, 0128, 0129, 0130), die jeweils uber 
eine geeignete boolsche Logik (0131, 0132, 0133) z.B. eine . 
logische UND-Funktlon verknupft und an den Sender geleitet 
werden (0134) , 

15 

Figur Ic zeigt eine mogliche bevorzugte Ausgestaltung mit 2 
Empfangern (a, b) . Eine Ausgabestufe (0103) versendet Daten 
und das zugeordnete in diesem Beispiel gepulste RDY (0131) . 
RdyHold-Stufen (0130) vor den Ziel-PAEs ubersetzen das gepul- 

20 ste RDY in ein stehendes RDY. Ein stehendes RDY soli in die- 
sera Beispiel den boolschen Wert b'l aufweisen. Die Inhalte 
samtlicher RdyHold-Stufen werden iiber eine Kette logischer 
ODER-Funktionen ('0133) "an 0103 zuruckgef Qhrt . Bestatigt eine 
Ziel-PAE die Annailme der Daten, wird l.ediglich durch das ein- 

25 treffende ACK (0134) die jeweils entsprechende RdyHold-Stufe 
zurtickgesetzt. Die Semantik des zuruckgefilhrten Signals lau- 
tet somit, b'l = "irgendeine PAE hat die Daten" nicht abgenom- 
men". Sobald alle RdyHold-Stufen zuruckgesetzt sind, gelangt 
iiber die ODER-Kette (0133) die Information b'O = "alle PAEs 

30 haben die Daten abgenommen" an 0103, was- als ACK gewertet 
wird. Die Ausgange (0132) der RdyHold-Stufen konnen wie be- 
reits beschrieben zur Ansteuerung von Busschaltern mitverwen- • 
det werden. 

11 
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Dem letzten Eingang einer ODER-Kette wird ein logischen b'O 
aufgeschaltet, damit di§ Kette ordentlich f unktioniert . 

tibertragung n:l 

5 t3ieser Fall ist vergleichsweise komplex. (FX) Einerseits mtis- 
sen mehrere Sender auf einen Empfanger gemultiplext werden, 
(F2) andererseits mufi zumeist auch die zeitliche Reihenfolge 
der Senduhgen eingehalten werden. Nachfolgend werden mehrere 
Verfahren zur Losung der Aufgabe beschrieben. Es soil darauf 

10 hingewiesen werden, dali kein Verfahren grundsatzlich zu be- 
■ vorzugen ist. Vielmehr ist je nach System und auszufuhrenden ■ 
Algorithmen das j swells aus Sicht der Programmierbarkeit, des 
Auf wands und der Kosten am hasten Geeignete zu wahlten. 

15 Eine einfache n:l Obertragung kann dadurch realisiert werden, 
dass.j swells mehrere Datenpfade auf die Eingange von PAEs ge- 
fiihrt werden. Die PAEs werden als Multiplexerstuf en konfigu- 
riert. Eingehende Triggsr steusrn den Multiplexer und selek- 
tleren j swells sinen der Mehrzahl von Datenpfaden. Sofern er- 

20. forderlich, kOnnen Baumstrukturen aus als Multiplexer konfi- 
■gurierten PAEs aufgebaut werden urn eine Vielzahl von Daten- 
• strbme (grosse n)' zusammenzufuhren. Das Verfahren erfprdet 
die besondere Aufmerksamkeit des Programmierers • um die unter- 
schiedlichen Datenstrome zsitllch kor3;,ekt zu sortleren. Ins- 

25 besondere sollten alls Datenpfade dle^elbe Lange und/odei: 

Verzogefung aufweisen, um die- korrekte Reihenfolge der Daten 
zu gewahrleisten. 

Leistungsfahigere Zusammenfuhrungsmethoden werden nachfolgend 

30 beschieben: . ■ 

Da PI zunachst trivial durch einen beliebigen Arbiter rait 
nachgeschaltetem Multiplexer losbar scheint,- soil die Uberle- ' 

gung mit F2 begdnnen werden. 

.12 
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Die Einhaltung der zeitlichen Reihenfolge ist mit einfachen 
Arbitern nicht moglich. Figur 2 zeigt ein erstes mogliches 
Implementierungbeispiel. Ein FIFO (0206) wird verwendet, urn 

5 die zeitliche Reihenfolgen von Obertragungsanf orderungen auf 
ein Bussysteiti (0208) korrekt abzulegen und- abzuarbeiten. 
Hierzu wird jedem Sender (0201, 0202, 0203, 0204) eine ein- 
deutige Nuitimer zugeordnet, die seine Adresse darstellt. Jeder 
Sender fordert eine Datenubertragung auf das Bussystem 0208 

10 an, indem er seine Adresse auf einem Bus (0209, 0210, 0211, 
0212) anzeigt. Die jeweiligen Adressen werden iiber einen Mul- 
tiplexer (0205) in einem FIFO (0206) entsprechend der Reihen- 
folge der Sendeanforderungen gespeichert. Das FIFO wird 
schrittweise abgearbeitet und die Adresse des jeweiligen FI- 

15 FO-Eintrages wird auf einem weiteren Bus (0207) angezeigt. 
Dieser Bus adressiert die Sender und der Sender mit der ent- 
sprechenden passenden Adresse erhalt den Zugriff auf den Bus 
0208. Fiir ein derartiges Verfahren kOnnen beispielsweise die 
internen Speictier der VPU Technologie als.FIFO verwendet wer- 

20 den (vgl. PACT04, PACT13) . 

Bei naherer Betrachtung entsteht jedoch. folgendes Problem: 
Sobald mehrer Sender gleichzeitig auf den Bus zugreifen wol- 
len, muB ein Sender ausgewahlt warden,^ dessen Adresse dann in 

25 das FIFO gespeichert wird. Im nachsten Takt wird dann der 
■nachste Sender ausgewahlt, usw. Die Auswahl kann durch einen 
Arbiter (0205) erfolgen. Dadurch wird die Gleichzei'tigkeit . 
aufgelost, was jedoch zumeist kein Problem darstellt. Fiir. 
Realtime-Anwendungen konnte ein priorisierender Arbiter ver- 

30 wendet werden. Das Verfahren scheitert jedoch an einer einfa- 
chen Oberlegung: Zum Zeitpunkt t fordern drei Sender S1,S2 
und S3 den Empf anger E an. Bei t wird Si, bei t+1 wird S2 und 
bei ■t+2 wird S3 gespeichert . Bei t+1 fordert jedoch S4 und 
^ ■ ■ ■ • . 13 
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S5, bei t+2 zusstzlich S5 und wieder SI den Empf anger an. Da 
nun neue Anf orderungen mit Alten tiberlappen, wird die Abar- 
beitung sehr schnell auJierst komplex und erfordert einen er- 
heblichen zusatzlichen Hardwareaufwand. 
5 Somit ist das in Figur 2 beschriebene Verfahren bevorzugt fiir 
einfache n:l UbergSnge die nach Moglichkeit keine gleichzei- 
tigen Busanf orderungen aufweisen anzuwenden. 



Nach dieser Oberlegung scheint es sinnvoll nicht einen Sender 
je Takt zu speichern, sondern die Menge aller Sender die zu 
einem bestiitimten Takt die Ubertragung anfbrdern. Zum jeweils 
darauffolgenden Takt wird dann die jeweils neue Menge gespei- 
chert. Sofern mehrere Sender zum gleichen Takt die Ubertra- 
gung anfordern, warden diese bei der Abarbeitung des Spei- 
chers arbitriert. 

Das Speichern mehrerer Senderadressen zugleich ist jedoch 
ebenfalls sehr aufwendig. Eine einfache Realisierung wird 
durch folgende Ausfuhrung in, Figur 3 erreicht: 

• Ein zusatzlicher Zahler (REQCNT, 0301) zahlt die Zahl 
der Takte T. Jeder Sender (0201, 0202, 0203, 0204), der 
beim Takt t die Obertragung anfordert, speichert den 
Wert von REQCNT (REQCNT (t)) beim Takt t als- seine Adres- 
se. 

• Jeder Sender, der beim Takt t+1 die Ubertragung anf or- 
dert speichert, den Wert von REQCNT (REQCNT (t+1) ) beim 
Takt t+1 als seine Adresse. 

• Jeder Sender, der beim Takt t+n die. Ubertragung arifor- 
dert speichert, den Wert von REQCNT (REQCNT (t+n) ) beim 
Takt t+n als seine Adresse. 
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Das FIFO (0206) speichert nunmehr die Werte von REQCNT(tb) 
bei einem bestiiranten Takt tb. 

Das FIFO zeigt einen gespeicherten Wert von REQCNT als Sende- 
aufforderung auf einem separaten Bus (0207) an. Jeder Sender 

5 vergleicht diesen Wert mit dem von ihm gespeicherten. Sind 
die Werte gleich sendet er die Daten. Besitzen mehrere Sender 
denselben Wert, d.h. wollen gleichzeitig Daten libertragen, so 
wird die Ubertragung jetzt mittels eines geeigneten Arbiters 
(CHNARB, 0302b) arbitriert und mittels eines durch den.Arbi- 

10 ter angesteuerten Multiplexers (0302a) auf den Bus geschal- 
tet. Eine beispielsweise mogliche Ausgestaltung des Arbiters 
wird nachfolgend beschrieben. 

Sobald keine Sender mehr auf einen REQCNT Wert ansprechen, 
d.h. dem Arbiter liegen keine Busanforderungen zur Arbitrie- 
15 rung mehr vor (0303) , schaltet das FIFO zum nachsten Wert 
weiter. Beinhaltet das FIFO keine giiltigen Eintrage mehr 
(empty), werden die Werte als ungiiltig gekennzeichnet , damit 
keine falschlichen Buszugriffe entstehen. 

In einer bevorzugten Ausgestaltung werden nur die Werte von 
20 REQCNT in den FIFO (0206) gespeichert bei denen eine Busan- 

forderung eines Senders (0201, 0202, 0203, 0204) vorlag. Dazu 

signalisiert jeder Sender seine Busanforderung (0310, .-0311,. 

0312, 0313). Dieser werden logisch verknupft (0314), z.B. 

durch eine ODER-Funktion. Die entstehende Sendeanforderung 
25 aller Sender (0315) auf ein Tor (0316) gefiihrt, das nur die 

Werte von REQCNT an das FIFO (0206) leitet, an bei. denen tat- 

sachlich eine Busanforderung vorlag; 

Das beschriebene.Verfahren kann ein einer 'bevorzugten Ausftih- 
30 rung entsprechend Figur 4 wie folgt weiter optimiert werden: 
Durch REQCNT (0410) wird eine lineare Folge von Werten 
(REQCNT (tb)) generiert, wenn statt aller Takte t nur die Tak- 
te gezahlt werden, in denen eine Busanforderung eines Senders 
■ •. 15 ■ . ' 
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(0315) existiert. Durch die von REQCNT generierte nun Itlcken- 
lose lineare Folge von Werten ist das FIFO durch einen einfa- 
chen Zahler (SNDCNT, 0402) ersetzbar, der ebenfalls linear 
zShlt und dessen Wert (0403) entsprechend 0207 die jeweiligen 
5 Sender freischaltet . Dabei zShlt SNDCNT weiter sobald kein 
Sender mehr auf den Wert von SNDCNT reagiert. Sobald der Wert 
von REQCNT gleich dem Wert von SNDCNT ist, zahlt SNDCNT nicht 
mehr weiter, da der letzte Wert erreicht ist. 

10 Fur samtliche Implementierungsarten gilt, daii die maximal er- 
f order liche Breite von REQCNT gleich iogz (Anzahl__der_Sender) 
ist. Bei Uberschreiten des grolitmoglichen Wertes beginnt 
REQCNT und SNDCNT wieder beim minimalen Wert {ftir gewohnlich. 
0) . 

15 

Eine Vielzahl von Arbitern sind nach dem Stand der Teohnik 
als CHNARB einsetzbar. Je nach Anwendung eignen sich besser 
priorisierte oder unpriorisierte Arbiter, wobei priorisierte 

20 den Vorteil bieten, daJi sie bei Realtime-Auf gaben bestinutite 
Tasks bevorzugen konnen. 
- Ira folgenden wird ein serieller Arbiter beschrieben, • der in 
der VPO-Technologie besonders einfach und resourcensparend 
implementierbar ist. Zudem bietet der .-^Arbiter den Vorteil 

25 priorisierend zu arbeiten, wodurch die bevorzugte Bearbeitung 
bestimmter Obertragungen ermSglicht wird. 

Zunachst wird ein moglicher Grundaufbau eines Bussystems in 
Figur 5 beschrieben. Bausteine der Gattung VPU besitzen ein 
30 Netzwerk aus parallelen Daten-Bussystemen. , (0502) , wobei jede 
PAE zur Dateniibertragung mindestens AnschluJi' an einen Daten-' 
bus besitzt. Ftir gewohnlich ist ein Netzwerk aus mehreren 
gleichwertigen parallelen Datenbussen (0502) aufgebaut, wobei 
,16 
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je ein Datenbus fur eine Datenubertragung konfiguriert sein 
kann. Die verbleibenden Datenbus se kSnnen fur andere Daten- 
iibertragungen zur freien Verfugung stehen. 

5 Es soil weiterhin erwahnt warden, dali die Datenbusse segmen- 
tierbar sein konnen, d.h. durch Konf iguration (0521) kann ein 
Bussegment (0502) uber Tore (G) auf das benachbarte Busseg- 
ment (0522) durchgeschaltet warden. Die Tore (G) konnen aus 
Transmission-Gates aufgebaut sein und bevorzugt Signalvar- 

10 starker und/oder Register aufweisen. 

Eine PAE (0501) greift vorzugsweise uber Multiplexer- (0503) 

Oder eine vergleichbare Schaltung Daten von einem der Busse 
(0502) ab. Die Freischaltung der Multiplexeranordung ist kon- 
15 figurierbar (0504) . 

Bevorzugt warden die von einer PAE. (0510) generierten Daten 
(Ergebnisse) uber eine Shnliche unabhangig konf igurierbare 
(0505) Multiplexer-Schaltung auf einen Bus (0502) aufgeschal- 

tet. 

20 Die in Figur 5 beschriebena Schaltung wird loit Busknbten be- 
zeichnet. 

Ein einfacher Arbiter fiir einen Busfcnoten kann f.olgenderma-, 
ssen, wie in Figur 6 dargestellt, implement iert sein: 

25 Durch zwei AND-Gatter (0601, 0602) kann das Grundelement 0610 
eines einfachen seriellen Arbiters aufgebaut werden .Figur 6a-. 
Das Grundelement besitzt einen Eingang (RDY, OeOS)- durch den 
ein Eingangsbus anzeigt, dass er Daten iibertragt und eine 
Freischaltung auf den Empfangerbus anfordert. Ein weiterer 

30. Eingang (ACTIVATE, 0604) der in diesem Beispiel . durch einen 
logischen 1-Pegel anzeigt, daB keines der vorhergehenden 
Grundelemente aktuell den Bus arbitriert hat und soroit eine 
Arbitrierung durch dieses Grundelement zulassig ist. • Der Aus- 
:.. . 17 
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gang RDY_OUT (0605) zeigt beispielsweise einem nachgeschalte- 
ten Busknoten an, daB das Grundelement den Buszugriff frei- 
schaltet (wenn eine Busanforderung (RDY) besteht) und ACTIVA- 
TE OUT (0606) zeigt an, daB das Grundelement aktuell keine 
5 Freischaltung (luehr) durchfiihrt, da keine Busanforderung 
(RDY) (mehr) besteht und/oder keine vorherige Arbiterstufe 
den Empfangerbus (ACTIVE) belegt hat. 

Durch die serielle Verkettung entsprechend Figur 6b von ACTI- 
10 VATE und ACTIVATE_OUT uber die Grundelemente 0 610 entsteht 
ein serieller priorisierender Arbiter, wobei das erste Grun- 
delement die hochste Prioritat besitzt und dessen ACTIVATE 
Eingang immer aktiviert ist. 

15 Durch das bereits beschriebene Protokoll ist sichergestellt , 
dali innerhalb desselben SNDCNT-Wertes jede PAE nur eine Da- 
tenubertragung durchfiihrt, da eine nachfolgende Datenubertra- 
gung einen anderen SDNCNT-Wert besitzen wurde. Diese Bedin- 
gung ist fur eine st5rungsf reie Funktion der seriellen Arbi- 

20 . ters erforderlich, da damit die fur die Priorisierung notwen- 
dige Abarbeitungsreihenfolge der Freischaltungsanforderungen 
(RDY) gewahrleistet wird. Mit anderen Worten, kann eine Frei- 
gabeanforderung (RDY) nicht wahrend einer Arbitriefung nach- 
traglich an Grundelement en auftreten, .sdie bereits durch AGTI- 

25 VATE_OUT anzeigen, dafi sie keine Freischaltung eines- Buszu- 
griffs ermoglichen. 



Lokalitat und, Lauf zeit 

30 Grundsatzlich. ist das Verfahren fiber lange Strecken hinweg 
einsetzbar. Ab einer von der Systemf requeriz abhangigen Lange 
ist die Ubertragung der Daten und Ausfiihrung des Prptokolls 

nicht mehr in einem Takt mSglich. 

' ' 18 ■ 
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Eine Ldsung ist die Datenpfade exakt gleich lang auszulegen 
und die Zusaininenfuhrung an genau einer Stelle durchzuf tihren . 
Damit sind samtliche Steuersignale fur das Protokoll lokal, 
wodurch eine Erhohung der Systemf requenz moglich wird. Zum 
5 Ausbalancieren der Datenpfade bieten sich FIFO-Stufen an, die 
als Verzogerungsstufen (delayline) mit konfigurierbarer Ver- 
zogerund arbeiten, die nachfolgend genauer beschrieben war- 
den. 

Eine weitaus optimalere Losung, bei der auch Datenpfade baum- 
10 formig zusammengefuhrt warden konnen, ist wie folgt aufbau- 
bar : 

Abqewandeltes Protokoll, Timestamp 

Vorbedingung ist, dafi ein Datenpfad in mehrere Zweige aufge- 
15 trennt und spater wieder zusammengefuhrt wird. Dies geschieht 
gewShnlicherweise bei Verzweigungen wie bei den Programmier- 
konstrukten: „ir^- odter „CASE" . In Figur 7a ist ein CASE- 
ahnliches Konstrukt beispielhaft dargestellt. 
Spatestens der letzten PAE vor einer Verzweigung (0701) wird 
20 ein REQCNT (0702) zugeordnet, der jedem Datenwort einen Wert 
(Timestamp) zuweist, der im weiteren iramer zusammen mit dem 
• Datenwort ubertragen wird. .REGCNT zahlt linear mit jedem Da- 
tenwort w-eiter, sodass durch einen eindeutigen Wert die Posi- 
tion eines Datenwortes innerhalb eineg> Datenstroms bestirainbar 
25 ist. Die Datenworte verzweigen sich nachfolgend in mehrere 

unterschiedliche Datenpfade (0703, 0704, 0705). Mit jedem Da- 
tenwort wird der ihm zugeordheten Wert (Timestamp) durch die 
Datenpfade geleitet. 

Vor der/den PAE (0708) die den zusammengefuhrten Datenpfad 
30 weiterverarbeiten, sortiert ein Multiplexer (0707) die Daten- 
worte wieder in die richtige Reihenfolge. Dazu ist . dem 'Multi- 
plexer ein linear zahlender SNDCNT (0706) zugeordnet. Der 
Wert (Timestamp) der jedem Datenwort zugewiesen wurde, wird 
: 19 . 
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itlit dem Wert von SNDCNT verglichen. Das jeweils passende Da- 
tenwort wird durch den Multiplexer selektiert. Palit zu einem 
bestimmten Zeitpunkt kein Datenwort, wird keine Selektion 
durchgef uhrt . SNDCNT zahlt nur dann welter, wenn ein passen- 

5 des Datenwort selektiert wurde. 

Um eine raoglichst hohe Taktfrequenz zu erreichen ist dabei 
die Zusammenfiihrung der Datenpfade sehr lokal durchzuf tihren . 
Daiuit werden die Leitungslangen niinimiert und die damit ver- 
bundenen Laufzeiten gering gehalten. 

10 Gegebenenfalls sind die Langen der Datenpfade durch Register- 
stufen (Pipelines) auszugleichen, bis sSmtliche Datenpfade an 
einem gemeinsamen Punkt zusammengef uhrt werden konnen. Dabei 
sollte darauf geachtet werden, daB die Langen der Pipelines 
in etwa gleich sind, um keine allzu grolien Zeitverschiebungen 

15 zwischen den Datenwort en zu erhalten. 

Verwendung der Timestamp zum Multiplexen 

Der Ausgang einer PAE (PAE-S) wird an mehrere PAE (PAE-E) 
20 weitergeleitet. Nur eine der PAEs soil die Oaten je Taktzy- 
klus verarbeiten. Die PAE-E haben eine jeweils unterschiedli- 
che fest konfigurierte Adresse, die jeweils mit dem 
TimeStamp-Bus verglichen wird. Die PAE-S selektiert die emp- 
fangende PAE dadurch, daJ3 sie die Adresse der empfangenden 
25 PAE auf den TimeStamp Bus ausgibt. Dadurch wird die PAE 
adressiert, fur die die Daten jeweils bestimrat ist. 

SpekTilative Aasfufaning und Task-Switch 

30 Von klassischen Mikroprozessoren ist das Problem der spekula- 
tiven Ausfiihrung bekannt. Dieses tritt auf, wenn die Verar- 
beitung von Daten von einem Ergebnis- der vorhergehenden Da- 
tenverarbeitung abhangig ist; aber jedoch ,mit der Verarbei- 
20 
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tung der abhangigen Daten aus Perforraance-Srunden jedoch 
schon vorab - ohne daS das erforderliche Ergebnis vorliegt - 
begonnen wird. 1st das Ergebnis ein anderes als vorab ange- 
nomiaen, muB die Verarbeitung der auf fehlerhaften Annahraen 
5 basierenden Daten neu durchgefUhrt warden (Fehlspekulation) . 
Generell kann dies auch in VPUs auftreten. 

Durch Umsortierung und ahnliche Verfahren kann dieses Problem 
minimiert werden, wobei jedoch dessen Auftreten niemals aus- 

geschlossen werden kann. 

10 

Ein ahnliches Problem liegt dann vor, wenn durch eine, der 
Datenverarbeitung in einerhalb des PAs ubergeordnete, Einheit 
(z.B. der Task-Scheduler eines Betriebssystem, Echtzeitanf or-- 
derung, usw.) die Datenverarbeitung abbricht, bevor diese 
15 vollstandig ausgefiihrt wurde. In diesem Fall muJi der Zustand 
der Pipeline derart gesichert werden, dafi die Datenverarbei- 
tung wieder nach der Stelle der Operanden beginnt, die zur 
Berechnung des letzen fertigen Ergebnisses geftihrt haben. 

20 Innerhalb einer Pipeline treten zwei relevante Zustande auf: 
■RD Am Beginn einer Pipeline wird angezeigt, daJJ neue Daten 
angenommen Oder angefordert werden. 
. DONE Am Ende einer Pipeline wird die korrekte Verarbeitung 
von Daten angezeigt, bei dehen keine Eehlspekulation auftrat. 
25 Weiterhin kann der Zustand ■MISS_PREDICT verwendet werden, der 
anzeigt-, dali eine Fehlspekulation auftrat. Hilfsweise kann 
dieser Zustand auch durch eine Negierung des Zustandes DONE 
zu geeignetem Zeitpunkt generiert- werden. 



Spezielle. FIFOs 

Aus PACT04 und PACT13 sind. Verfahren bekannt, bei welchen Da- 
ten in Speichern gehalten werden und aus diesen zur Verarbei- 
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tung ausgelesen warden, bzw. Ergebnisse in„diese abgelegt 
werden. Dazu konnen mehrere unabhangige Speicher verwendet 
werden. Die Speicher konnen in unterschiedlichen Betriebsar- 
ten arbeiten, insbesondere kann ein wahlfreier Zugriff, ein 
5 Stack- Oder FIFO-Betriebsmodus verwendet werden. 

Daten werden in VPUs fur gewohnlich linear verarbeitet, so- 
dass der FIFO-Betriebsmodus haufig bevorzugt zum Einsatz 
kommt. Es soil beispielhaft eine besondere Erweiterung der 
Speicher fur den FIFO Betriebsmodus vorgestellt werden, der 
. 10 Spekulation direkt untersttitzt und im Fall einer Fehlspekula- 
tion die wiederholte Verarbeitung der f ehlspekulierten Daten 
ermoglicht. Desweiteren unterstutzt der FIFO Taskswitches zu 
beliebigen Zeitpunkten. 

15 Zunachst wird der erweiterte FIFO Betriebsmodi am Beispiel 
eines Speichers ausgefiihrt, auf den im Rahmen einer bestimm- 
ten Datenverarbeitung lesend (Leseseite) zugegriffen wird. 
Der beispielhafte FIFO ist in Figur 8 dargestellt. 
Der Aufbau der Schreibschaltung entspricht mit einem gewohn- 

20 lichen Schreibzeiger (.WR_PTR, 0801) dabei dem Stand der Tech- 
nik, der sich mit jedem Schreibzugriff (0810) weiterbewegt . 
• Die Leseschaltung besitzt ..z .'B. den ublichen ZShler (RD_PTR, 
0802), der entsprechend eines Lesesignals (0811) jedes gele- 
sene Wort zahlt und entsprechend die Leseadresse des Spei- 

25 chers (0803) modifiziert. Neu gegeniiber dem Stand der Technik 
ist eine zusatzliche Schaltung DONE_PTR (0804), 'die ni'cht die 
ausgelesenen Daten dokumentiert,, sondern die ausgelesenen und 
korrekt verarbeiteten, mit anderen Worten also nur die Daten 
bei denen kein Fehler auftrat und deren Ergebnis am Ende der 

30 Berechnung ausgegeben und das korrekte Berechnungsende ein 
Signal (0812) angezeigt wurde. Mogliche Schaltungen werden 
nachfolgend beschrieben. 

22 
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Das FULL-Flag (0805) (nach den Stand der Technik) , das an- 
zeigt, daJi der FIFO voll ist und keine weiteren Daten mehr 
gespeichert warden kOnnen, wird nunmehr durch einen Vergleich 
(0806) von DONE_PTR mit WR_WTR generiert. Dadurch wird si- 
5 chergestellt, dass Daten, auf die bedingt durch eine mQgliche 
Fehlspekulation ein Ruckgriff notwendig wird, nicht uber- 
schrieben werden. 

Das EMPTY-Flag (0807) wird entsprechend dem ublichen Aufbau 
durch Vergleich (0808) des RD_PRT mit dem WR_P.TR generiert. 
10 Trat eine Fehlspekulation (MISS_PREDICT, 0809) auf, wird der 
Lesezeiger mit dem Wert DONE_PTR + 1 geladen. Damit wird die 
Datenverarbeitung wieder bei dem Wert begonnen, der eine 
Fehlspekulation ausloste. 

Zwei mogliche Ausgestaltungen des DONE_PTR sollen beispiel- 
15 haft genauers ausgefuhrt werden: 

a) Implementierung durch einen Zahler 

DONE_PTR ist als Zahler implementiert , der bei einem Reset 
der Schaltung oder zu Beginn einer Datenverarbeitung gleich 
dem RD_PTR gesetzt wird. Durch ein eingehendes Signal (DONE) 
20 wird angezeigt, daJi die Daten erfolgreich, d.h. ohne Fehlspe- 
kulation verarbeitet wurden. Dadurch wird DONE_PRT derart mo- 
difiziert, daB er auf das nSchste' sich in Verarbeitung befin- 
dende Datenwort zeigt. 

b) Implementierung durch einen Subtrahierer 

25 Sofern die Lange der datenverarbeitenden Pipeline iromer exakt 
bekannt ist und sichergestellt ist, daJi die Lange konstant 
ist (also keine Verzweigung in. unterschiedlich lange Pipeli- 
nes stattfindet) , kann ein Subtrahierer eingesetzt werden. In 
einem zugeordneten Register wird die Lange der Pipeline vom 

30 Anschlua des Speichers bis zum Erkennen einer mdglichen Fehl- 
spekulation gespeichert. Dadurch muii die Datenverarbeitung 
nach einer Fehlspekulation bei dem Datenwort wieder aufge- 
setzt werden, das durch die Differenz berechnet werden kann. 
' > 23 
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Auf der Schreibseite, urn das Ergebnis der Datenverarbeitung 
.einer Konfiguration zu sichern, ist ein entsprechend ausge- 
stalteter Speicher erforderlich, wobei die Funktion des DO- 
5 NE_PRT fiir den Schreibzeiger iinplenientiert ist, um bereits 
(fehl-)berechnete Ergebnisse bei einem erneuten Durchlauf der 
Datenverarbeitung wieder zu tiberschreiben. Mit anderen Worten 
ist die Funktion des Schreib-/Lesezeigers entsprechend der in 
der Zeichnung geklaramerten Adressen vertauscht. 

10 

Wird die Verarbeitung der Daten von einer anderen Quelle un- 
terbrochen (z.B. Taskswitch eines Betriebssystems) ist es 
hinreichend den DONE_PTR zu sichern und die Datenverarbeitung 
zu einem spSteren Zeitpunkt bei DONE_PTR + 1 wieder aufzuset- 
15 zen. 

FIFOs fur Input/Output-Stufen, z.B. 0101, 0103 

Zum Ausbalancieren von Datenpfaden und/oder Zustanden unter- 

20 schiedlicher Kanten eines Graphen, bzw. unterschiedlicher 
Zweige der • Datenverarbeitung (Trigger, vgl. PACT08, PACT13) 
ist es sinnvoll ' kdnf igurierbare FIFOs an den AusgSngen Oder 
Eingangen der PAEs- einzusetzen. Die FIFOs besitzen einstell- 
bare iatenzzeiten, sodass die VerzOger-ung unterschiedlicher 

25 Kanten/Zweige, also die Laufzeit von Daten iiber unterschied- 
liche aber zuitieist parallele Datenpfade, aufeinander abge- 
stimmt warden kann. 

Da es innerhalb einer VPU zum.Anhalten einer Pipeline auf- 
grund -ausstehender Daten oder eines ausstehenden Triggers. 
30 kommen kann," sind die FIFOs ebenfalls zum Ausgleichen derar- 
tiger Verzogerungen sinnvoll. Die nachfolgend beschriebenen 
FIFOs losen beide Aufgaben: 



24 
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Eine FIFO-Stufe kann beispielsweise wie in_.Figur 9 darge- 
stellt folgendermassen aufgebaut sein: Einem Register (0901) 
ist ein . Multiplexer (0902) nachgeschaltet . Das Register spei- 
chert die Daten (0903) und auch deren korrekte Existenz, d.h. 

5 das dazugehSrende RDY (0904). Das Einschreiben in das Regi- 
ster erfolgt genau dann, wenn die benachbarte FIFO-Stufe, die 
naher zum Ausgang (0920) des FIFOs liegt anzeigt, dass sie 
voll ist (0905) und ein RDY (0904) fiir die Daten anliegt. Der 
Multiplexer leitet Eingehende Daten (0903) so lange direkt 

10 auf den Ausgang waiter (0906), bis Daten in das Register ge- 
schrieben wurden und die FIFO-Stufe damit selbst voll ist, 
was der benachbarten FIFO-Stufe, die naher zum Eingang (0921) 
des FIFOs liegt angezeigt wird (0907). Die Annahme von Daten 
in einer FIFO-Stufe wird mit einem Input-Acknowledge (lACK, 

15 0908) bestatigt. Die Abnahme von Daten aus einem FIFO wird 

durch Output -Acknowledge (OACK, 0909) bestatigt. OACK gelangt 
zugleich an alle FIFO-Stufen und bewirkt das weiters.chieben 
der Daten im FIFO um jeweils eine Stufe. 

20 Einzelne FIFO-Stufen konnen zum Aufbau beliebig langer FIFOs 
• kaskadiert warden' Figur 9a. Dazu warden alle lACK-Ausgange 
iogisch miteinander verknupft, beispielsweise ' durch' Bine 
ODER- Funkt ion (0910) . 

25 Die Funkt ionsweise wird am Beispiel von Figur 10a, b erlau- 
tert : 

Hinzufuqen eines Datenwortes 

Ein neues Datenwort wird iiber die Multiplexer der einzelnen 
30 FIFO-Stufen an den Registern vorbeigeleitet . Die erste voile 
FIFO-Stufe (1001) signalisierf der davorliegenden Stufe 
(1002) anhand des gespeicherten RDY, daJJ sie keine Daten an- 

nehmen kann. Die davoxliegende Stufe (1002) hat kein RDY ge- 

..... .25 
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speichert, kennt aber den "Voll"-Zustand der Nachfolgenden 
(1001) . Daher speichert die Stufe die Daten und das RDY 
(1003) ; und quittiert die Speicherung durch ein ACK an den 
Sender. Der Multiplexer (1004) der FIFO-Stufe schaltet dabei 
5 derart um, dass er nicht mehr den Datenpfad an die nachfol- 
gende Stufe weiterleitet , sondern den Inhalt des Registers. 

Entfernen eines Datenwortes 

10 Geht ein ACK (1011) bei der letzten FIFO-Stufe ein, werden 
die Daten jeder vorhergehenden Stufe an die jeweils Nachfol- 
gende iibertragen (1010). Dies geschieht durch Anlegen eines 
globalen Schreibtaktes an jede Stufe. Da samtliche Multiple- 
xer bereits entsprechend der Registerbelegung gestellt sind, 

15 rutschen somit alle Daten iiti FIFO urn eine Zeile nach unten. 

Entfernen und qleichzeitiges Hinzufugen eines Datenwortes 
.Liegt der globale Schreibtakt an, wird in der ersten freien 

20 Stufe kein Datenwort gespeichert. Da der Multiplexer dieser 
Stufe die Daten noch an die Nachfolgende weiterleitet, spei- 
chert die erste voile Stufe (1012) die Daten. Deren Daten 
werden wie zuvor beschrieben im selben Takt von der nachfol- 
genden Stufe gespeichert. Mit anderern^ Worten: Neu einzu- 

25 schreibenden Daten rutschen automatisch in die nunmehr erste 
■ freie- FIFO-Stufe • (1012) , d.'h. die vormals letzte voile FIFO- 
Stufe, die, durch eintref fen ■ von. ACK geleert wurde, nach. 

30 Konfigurierbare Pipeline 

Es kann fiir bestimmte Anwendungen von Vbrteil sein, mittels 
eines Schalters (0930). in den beispielhaft in Figur 9 gezeig- 
ten FIFO-Stufe einzelne Multiplexer des FIFOs derart zu 
26 , . 
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schalten, dafi grundsatzlich das entsprechende Register einge- 
schaltet ist. Dainit ist eine feste Latenz- bzw. Verzugerungs- 
zeit bei der Datenubertragung einstellbar fiber den Schalter 
konfigurierbar. 



Zusairanenfiihxen von Datenstromen (m&rgea) 

Zum Zusairatienfuhren der DatenstrcSme stehen insgesamt 3 Verfah- 
ren zur Verfugung, die je nach Anwendung unterschiedlich gut 

10 geeignet sind: 

a) Local Merge 

b) Tree Merge 

c) Memory Merge 



Lokales Zusammenf uhren (Local Merg e), 

Die einfachste Variante ist der local merge. Dabei werden al- 
le Datenstrome bevorzugt an einem einzigen Punkt oder ver- 
gleichsweise lokal zusaitimengefuhrt und gegebenenf alls sofort 
wieder auf getrenat . Ein lokaler SNDCNT selektiert uber einen 
Multiplexer genau das Datenwort, das de.ssen Timestamp deiti 
Wert von SNDCNT entspricht und daher. aktuell erwartet wird. 
Zwei MSglichkeiten sollen anhand der Figuren 7a und 7b nahers 
erlautert werden: 

a) Ein Zahler SNDCNT .(0706) zahlt bei jedem .eintref f enden Da- 
tenpaket welter. Je batenpfad ist ein Vergleicher nachge- 
schaltet, der den Zahlerstand jeweils mit der Timestamp des 
Datenpfades vergleicht. Stimmen die' Werte aberein, wird das 
aktuelle Datenpaket uber den Multiplexer an die nachf olgenden 
PAEs weitergeleitet. 

b) Die Losung nach a) wird derart erweitert, dafl nach der 
Auswahl des jeweils aktiven Datenpfades als Herkunftsdaten- 
pfad diesem beispielsweise mittels einer bevorzugt Gber ein 
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Obersetzungsverfahren, z.B. eine CT konf igurierbaren Lookup- 
Tabelle (0710), ein Zieldatenpf ad zugeordnet wird. Der Her- 
kunftsdatenpfad wird ermittelt indem die mit den Daten ein- 
treffenden Timestamp entsprechend Verfahren a) mit einem 

5 SNDCNT (0711) verglichen (0712) warden und der iibereinstim- 
mende Datenpfad adressiert (0714) und uber einen Multiplexer 
(0713) selektiert wird. Die Adresse (0714) wird mittels der 
beispielhaften Lookup-Tabelle (0710) einer Zieldatenpf ada- 
dresse (0715) zugeordnet die uber einen Demultiplexer (0716) 

10 den Zielpfad auswahlt. Sofern die beschriebene Struktur in 
Busknoten ahnlich Figur implementiert ist, kann iiber die bei- 
spielhafte Lookup-Tabelle (0710) die Datenverbindung auch der 
dem Busknoten zugeordnete PAE (0718) aufgebaut werden, bei- 
spielswelse uber eine Tor-Funktion (Transmission-Gates) 

15 (0717) zum Eingang der PAE. 

Ein besonders leistungsfahiges Schaltungsbeispiel ist in Fi- 
gur 7c dargestellt. Eine PAE (0720) besitzt 3 Dateneingange 
(A,B,C), wie beispielsweise in der XPU128ES, Bussysteme 

20 (0733) konnen konf igurierbare und/oder multiplexbar und je 
Taktzyklus selektierba'r auf die Dateneingange aufgeschaltet 
werden. Jedes Bussystem iibertrSgt Oaten, Handshakes und die 
zugeordnete Timestamp (0721). Die EingSnge A und C der PAE. 
(0720) werden dazu verwendet, die Timestamp der Datenfcanale 

25 an die PAE weiterzuleiten (0722, 0723). Die einzelnen 

Timestamp konnen beispielsweise durch das nachfolgend be- 
schriebene SIMD-Bussystem gebundelt werden. Die gebundelten 
Timestamp werden in der PAE wieder aufgetrennt und jede 
Timestamp je einzeln (0725, 0726, 0727) mit einem in der PAE 

30 realisierten/konfigurierten SNDCNT (0724) verglichen (0728). 
Die Ergebnisse der Vergleiche werden verv/endet urn die Ein- 
gangsmultiplexer (0730) derart anzusteuern, dass das Bussy- 
stem mit der korrekten Timestamp auf eine- Saramelschiene 
28 
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(0731) durchgeschaltet wird. Die Sainmelschiene ist bevorzugt 
mit dem Eingang B verbunden, urn eine Datenweiterleitung an 
die PAE entsprechend 0717, 0718 zu ermSglichen. Die Ausgangs- 
demultiplexer (0732) zur Weiterleitung der Daten auf unter- 
schiedliche Bussysteme werden ebenfalls durch die Ergebnisse 
angesteuert, wobei bevorzugt eine Umordnung der Ergebnisse 
durch eine flexible tJbersetzung, z.B. durch eine Lookup- 
Tabelle (0729) stattfindet, sodass den Ergebnissen frei uber 
Demultiplexer (0732) zu selektierende Bussysteme zugeordnet 
werden konnen. 

Baumartiqes Zusammenfugen (Tree Merge) 

In vielen Applikationen ist es wunschenswert an mehreren 
Punkten Teile eines Datenstromes zu mergen. Es ergibt sich 
daraus eine Baum ahnliche Struktur. Dabei entsteht das Pro- 
blem, dafi keine zentrale Entscheidung iiber die Selektion ei- 
nes Datenwortes gefallt werden kann, sondern dafi die Ent- 
scheidung uber mehrere Knoten verteilt ist. Daher ist erfor- 
derlich an alle Knoten den jeweiligen Wert von SNDCNT zu 
libertragen. Bei hohen Taktfrequenzen ist das jedoch nur mit 
einer Latenzzeit, die beispielsweise durch mehrere Register- 
stufen wahrend der Obertragung entsteht, 'moglich. Damit bie- 
tet diese Losung zunachst keine sinnvolle Performance. 
Ein Verfahren zum Verbessern der Perfo^rmance ist, daJi lokale 
Entscheidungen in jedem Knoten unabhangig vom Wert von SNDCNT 
zugelassen werden. Ein beispielsweise einfachex Ansatz ist, 
das Datenwort mit der jeweils kleinsten Timestamp an einem 
Knoten zu selektieren. Dieser Ansatz wird jedoch problema- 
tisch, wenn.ein Datenpfad an einem Knoten zu einem Takt kein 
Datenwort liefert. Nun kann nicht' entschieden werden, welcher 
Datenpfad der zu bevorzugende ist. 

Der nachfolgende Algorithmus verbessert dieses Verhalten: 
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a) Jeder Knoten erhalt einen eigenstandigen SNDCNT Zahler 
SNDCNTk. 

b) Jeder Knoten soli n Eingangsdatenpf ade (Po.-Pn) besit- 
zen. 

5 c) Jeder BCnoten kann mehrere Ausgangsdatenpf ade besitzen, 
die mittels eines obersetzungsverfahrens, z.B. einer 
durch eine ubergeordnete Konf igurationseinheit CT konfi- 
gurierbare Lookup-Tabelle, abhangig vom Eingangsdaten- 

pfad selektiert werden. 
10 d) Der Root-Knoten besitzt den Haupt-SNDCNT auf den alle 
SNDCNTk gegebenenf alls synchronisiert werdem. 

Zur Selektion des korrekten Datenpfades wird folgender Algo- 
rithmus angewendet: 
15 I.Sofern Daten an alien Eingangsdatenpf aden anstehen gilt: 

a) Auswahl des Datenpfades P(ts) mit der kleinsten Timestamp 
Ts. 

b) Zuweisung von K := Ts+1; SNDCNT > Ts+1 gilt SNDCNTk := 
SNDCNT. 

20 

II. Wenn nicht an alien Pn Eingangsdatenpf aden Daten anstehen 
gilt: 

a) Auswahl eines Datenpfades nur, wenn die Timestamp Ts == 
SNDCNTk 

25 b) SNDCNTk := SNDCNT + 1 

c) SNDCNT := SNDCNT +1 

III. Wird in einem Takt keine Zuweisung durchgefiihrt gilt: 
a) SNDCNTk := SNDCNT 

30 

IV. Der Root-Knoten besitzt den SNDCNT, der bei jeder Selek- 
tion eines gultigen Datenwortes weiterzahlt und die korrekte 
Reihenfolge der Datenworter bei der Root. des Trees sicher- • 

30 . 
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Stent. Alle andern Knoten werden auf Wert... von SNDCNT syn- 
chronisiert, sofern erforderlich (siehe 1-3) . Dabei tritt si- 
ne Latenzzeit auf, die der Anzahl der Register entspricht, 
die zu Uberbruckung der Strecke von SNDCNT nach SNDCNTr ein- 

gefugt werden miissen. 

Figur 11 zeigt einen moglichen Baum, der beispielsweise auf 
PAEs ahnlich denen der VPU XPU128ES aufgebaut sind. Ein Root- 
Knoten (1101) besitzt einen integrierten SNDCNT, dessen Wert 
am Ausgang H (1102) zur Verfiigung steht. Die Datenworte an 
den Eingange A und C werden entsprechend des beschriebenen 
Verfahrens selektiert und jeweils das Datenwort mit der kor- 
rekten Reihenfolge auf den Ausgang L gefiihrt. 
Die PAEs der nSchsten Hierarchiestuf e (1103) und auf jeder 
weiteren hoheren Hierarchiestuf e (1104, 1105) arbeiten ent- 
sprechend, weisen jedoch folgenden Unterschied auf: Der inte- 
grierte SNDCNTk ist lokal, der jeweilige Wert wird nicht wei- 
tergeleitet. SNDCNTk wird entsprechend des beschriebenen Ver- 
fahrens mit SNDCNT, dessen Wert am Eingang B anliegt synchro- 
nisiert . 

SNDCNT kann zwischen samtlichen BCnoten, insbesondere aber 
,auch zwischen den einzelnen Hierarchiestuf en, beispielsweise • 
uber Register gepipelinet sein. 



Zusammenfiiqen mittels Speicher (Memory Merge) 
Bei diesem Verfahren werden zum Zusammenflihren- von Datenstro- 
men Speicher verwendet. Dabei wird jedem Wert der Timestamp 
ein Sp.eicherplatz zugewiesen. Die Daten werden dann entspre- 
chend des Wertes ihrer Timestamp in dem Speicher abgelegt; 
mit anderen Worten dient die Timestamp als Adresse der Spei- 
cher s telle fiir die zugeordneten Daten. Dadurch entsteht ein 
Datenraum der linear zu den Timestamp. ist, d.h. entsprechend 
■ 31 
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der Timestamp sortiert ist. Erst wenn der Datenraum vollstan- 
dig ist, d.h. alle Daten gespeichert wurden, wird der Spei- 
cher zur weiteren Verarbeitung freigegeben, bzw. linear aus- 
gelesen. Dies ist kann beispielsweise einfach festgestellt 
5 warden, indem gezahlt wird, wieviele Daten in einen Speicher 
geschrieben wurden. Wurden soviele Daten geschrieben wie der 
Speicher Dateneintrage besitzt ist er voll. 

Bei der Durchfuhrung des Grundprinzipes tritt folgendes Pro- 

10 blem auf : Bevor der Speicher Itickenlos gefullt ist, kann ein 
Uberlauf der Timestamp stattfinden. Ein Uberlauf. ist folgen- 
dermaBen definiert: Eine Timestamp ist eine Zahl aus einem 
endlichen linearen Zahlenraum (TSR) . Die Vergabe von 
Timestamps erfolgt streng monoton, wodurch innerhalb des Zah- 

15 lenraumes TSR jede vergebene Timestamp eindeutig ist. Wird 
bei der Vergabe einer Timestamp das Ende des Zahlenraumes er- 
reicht wird die Vergabe beim Beginn von TSR fortgesetzt; da- 
durch entsteht eine Unstetigkeitsstelle . Die nunraehr vergebe- 
nen Timestamp sind nicht mehr eindeutig gegenuber den vorher- 

20 gehenden. Es ist grundsatzlich sichef zustellen,. daB diese Dn- 
stetigkeitsstellen bei der Verarbeitung berttcksichtigt wer- 
den. Der Zahlenraum (TSR) ist daher so groB zn wahien, daB im 
ungunstigsten Fall keine Doppeldeutigkeit dadurch entsteht, 
daB zwei identische Timestamp- innerhalb der Datenverarbeitung 

25 auftreten. Mit .anderen Wprten muB TSR so groB sein, daB im 
ungunstigsten Fall, der innerhalb der nachf olgenden Verarbei- 
tungspipelines und/oder Speicher auftreten kann, keine iden- 
tischen Timestamp innerhalb der Verarbeitungspipe.lines 
und/oder Speicher existieren. 

30 Tritt n-onmehr ein Uberlauf der Timestamp auf, miissen die' 

Speicher in jedem Fall darauf reagieren konnen. Es muss davon 
ausgegangen werden, daB nach einem Uberlauf teilweise Daten 
mit der Timestamp vor dem Uberlauf („alte Daten'' ) und teil- 
' 32 
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weise Daten mit der Timestamp nach dem Uberlauf („neue Da- 
ten") in den Speichern enthalten sein werden. 
Die neuen Daten konnen nicht in die Speicherstellen der alten 
Daten geschrieben werden, da diese noch nicht ausgelesen wur- 
den. Daher sind mehrere (mindestens zwei) unabhangige Spei- 
cherblocke vorzusehen, sodali die alten und neuen Daten ge- 
trennt geschrieben werden konnen. 

Zur Verwaltung der Speicherblocke konnen beliebige Verfahren 
eingesetzt werden. Zwei Moglichkeiten werden nahers ausge- 
f uhrt : 

a) -Sofern immer sichergestellt ist, dafi die alteri Daten 

eines bestimmten Timestamp-Wertes vor den neuen Daten 
dieses Timestamp-Wertes eintreffen, wird getestet, ob 
die Speicherstelle far die alten Daten noch frei ist. 
1st dies der Fall liegen alte Daten vor und die Spei- 
cherstelle wird beschrieben, wenn nicht liegen neue Da- 
ten an und die Speicherstelle fiir die neuen Daten wird 
beschrieben, 

b) Ist nicht sichergestellt, dali die alten Daten eines be- 
stimmten Timestamp-Wertes vor den neuen Daten dieses 
Timestamp-Wertes eintreffen, k^nn- die Timestamp mit ei- 
ner Kennung versehen werden, die alte und -neue 
Timestamps unterscheidet . Diese Kennung kann ein oder 
mehrere Bits breit sein. Bei einer Oberlauf der . 
Timestamp wird die Kennung linear verSndert. Dadurch 
sind nunmehr alte und neue Daten mit eindeutigen 
Timestamps versehen. Entsprechend der Kennung werden 
die Daten einem von mehreren Speicherblocken zugewie- 
sen. 

Bevorzugt werden daher Kennungen verwendet, deren maximaler. 
numerischer Werte berachtlich kleiner sind als der.maximale 
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numerische Wert der Timestamps. Ein bevorzugtes Verhaltnis 
kann durch folgende Formel angegeben werden: 
Kennungmax < TimeStampmax / 2 



Verwendting von. Speichern zur Partitioniemng breiter Graphen 

Wie aus PACT13 bekannt ist es erf orderlich, groBe Algorithmeri 
zu paritionieren, d.h. in eine Mehrzahl von Teilalgorithmen 
zu zerteilen, damit dies jeweils auf eine vorgegebene Anord- 
nung und Menge von PAEs einer VPU passen. Die Partitionierung 
■ ist dabei einerseits perf ormanceef f izient andererseits natiir- 
lich unter Beibehaltung der Korrektheit des ALgorithmus 
durchzufuhren. Ein wesentlicher Aspekt ist dabei die Verwal- 
tung der Daten und Zustande (Trigger) der jeweiligen Daten- 
pfade. Im Folgenden werden Verfahren zur verbesserten und 
vereinfachten Verwaltung vorgestellt. 

In vielen Fallen ist es nicht moglich einen Datenf luBgraphen 
an nur einer Kante zu schneiden (Beispiels siehe Figur 12a) , 
da der Graph beispielsweise zu breit ist, bzw. da zu viele 
Kanten (1201/ 1202, 12-03) an der Schnittstelle (1204) vorhan- 
den sind. 

Die Partitionierung kann erf indungsgemaB derart durchgeftihrt 
werden, daB entsprechend Figur 12b entlang aller Kanten ge- 
schnitten wird. Die Daten jeder Kante einer ersten Konfigura- 
tion (1213) werden in einen separaten Speicher (1211) ge- 
schrieben. 

Es soil ausdrucklich angemerkt werden, dafi zusaiiunen mit . (oder 
ggf . auch getrennt von) den Daten auch samtliche relevanten • 
Statusinformationen der Datenverarbeitung iiber die Kanten 
(beispielsweise in Figur 12b) laufen und in die Speicher ge- 
schrieben werden k5nnen. Die Statusinformationen sind in der 
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VPU-Technologie beispielsweise durch Trigger (vgl. PACT08) 
reprasentiert . 

Nach der Rekonf iguration werden die Daten und/oder Statusin- 
5 formationen von einer nachfolgeden Konf iguration (1214) aus 
den Speichern ausgelesen und durch diese Konfiguration wei- 

terbearbeitet . 

Die Speicher arbeiten als Datenempf anger der ersten Konfigu- 
10 ration (also in einer hauptsachlich beschreibenden Arbeits- 
weise) und als Datensender der nachfolgenden Konfiguration 
(also in einer hauptsachlich auslesenden Arbeit sweise). . Die 
Speicher (1211) selbst sind Teil/Ressourcen beider Konfigura- 
tionen. 

15 

Zur korrekten Weiterverarbeitung der Daten ist es notwendig 
die ordentliche zeitliche Reihenfolge zu kennen, in der die 
Daten in die Speicher geschreiben wurden. 

Grundlegend kann dies gewahrleistet werden^ indem die Daten- 
20 strSme entweder 

a) beim Einschreiben in einen Speicher sortiert werden 
uhd/oder 

b) beim Auslesen aus einem Speicher sortiert werden 

und/oder 

25 c) die Sortierreihenf olge mit den Daten gespeichert und der 
nachfolgenden Datenverarbeitung zur Verfiigung gestellt wird» 

Dazu werden den Speichern Steuereinheiten zugeordnet, die so- 
wohl beim Einschreiben der Daten (1210) in die Speicher 
30 (1211) , als auch beim Auslesen der Daten aus den Speichern 
(1212) fiir die Verwaltung der Datenrelhenfolgen und Datenab- 
hangigkeiten sorgen. Je nach Ausgestaltung konnen unter- 
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schiedliche Verwaltungsarten und entsprechende Steuermecha- 
nismen eingesetzt werden. 

Zwei mogliche entsprechende Verfahren sollen anhand Figur 13 
5 ausfuhrlicher erlautert werden. Die Speicher sind ahnlich des 
Datenverarbeitungsverfahren nach PACT04 einem Array (1310, 

1320) aus PAEs zugeordnet: 

a) In Figur 13a generieren die Speicher ihre Adressen syn- 
chron beispielsweise durch gemeinsame Adressgeneratoren und 

10 unabhangige aber synchrongeschaltete . Mit anderen Worten wird 
die Schreibadresse ■ (1301) pro Zyklus weitergezahlt, unabhan- 
gig ob ein Speicher tatsachlich gultige Daten zu speichern 
hat. Damit besitzen eine Mehrzahl von Speichern (1303, 1304) 
dieselbe Zeitbasis, bzw. Schreib/Leseadresse . Ein zusatzli- 

15 ches Flag (VOID, 1302) je Datenspeicherstelle im Speicher 

zeigt an, ob gultige Daten in eine Speicheradresse geschrie- 
ben wurden. Das Flag VOID kann durch das den Daten zugeordne- 
te RDY (1305) generiert werden, entsprechend wird beim Ausle- 
sen eines Speichers das Daten RDY (1306) aus dem Flag VOID 

20 generiert. Fur das Auslesen der Daten durch' die nachfolgende 
Konfiguration wird entsprechend dem Einschreiben der Daten 
eine gemeinsame Leseadresse (1307) generiert, -die pro Zyklus 
weitergeschaltet wird. 

25 b) Effizienter ist im Beispiel nach Figur 13b ist die Zuord- 
nung einer Timestamp. zu jedem Datehwort entsprechend des' be- 
reits beschriebenen Verfahrens. Die Daten (1317) werden mit 
der dazugehorenden Timestamp (1311) in der jeweiligen Spei- 
cherstelle gespeichert. Dadurch entstehen keine Lucken in den 

30 Speichern und diese werden effizienter ausgelastet. Jeder 

Speicher weist unabhangige Schreibzeiger (1313, 1314) fiir die 
dateneinschreibende Konfiguration und Lesezeiger (1315, 1316) 
fiir die nachfolgend datenauslesende Konfiguration auf . Ent- 
. , 36 
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sprechend der bekannten Verfahren (beispielsweise entspre- 
chend Figur 7a oder Figur 11) wird beim Auslesen das jeweils 
zeitlich korrekte Datenwort anhand der zugeordneten und mit- 
gespeicherten Tiitiestamp (1312) selektiert. 

5 

Die Sortierung der Daten in die Speicher /aus den Speichern 
kann also nach unterschiedlichen algorithmisch jeweils geeig- 
neten Verfahren erfolgen, wie beispielsweise durch 
a) Zuweisung eines Speicherplatzes durch die TimeStamp 
10 b) Einsortieren in den Datenstrom gemafi der TimeStamp 

c) Speichern je Takt zusammen mit einem VALID-Flag 

d) Speichern der TimeStamp und derer Weitergabe an den nach- 
folgenden Algorithmus beim Auslesen des Speichers 

15 Applikationsabhangig konnen mehrere {oder alle) Datenpfade 

auch vor Speichern uber die erf indungsgemalien Merge-Verf ahren 
zusammengefiihrt werden. Ob dies durchgefiihrt wird hangt im 
wesentlichen von den zur Verfugung stehenden Ressourcen ab. 
Stehen zu wenig Speicher zur Verfugung ist eine Zusammenfah- 

20' rung vor den Speichern erforderlich oder wunschenswert . Ste- 
hen zu wenig PAEs zur Verfugung , werden bevorzugt keine wei-: 
teren PAEs fur eihen Merge verwendet . 



25 Erweiterung der Peripherieinterface (10) durch Times tan^ 

Nachfolgend wird eine Verfahren beschrieben, um- 10 Kanalen zu 
Peripheriebausteinen und/oder externen Speichern Timestamps 
zuzuordnen. Die Zuordnung kann unterschiedliche Zwecke erf al- 
ien, beispielsweise um eine korrekte Sortierung von Daten- 
30 stromen zwischen Sender und Empf anger zuzulassen und/oder 
Quellen urid/oder Ziele von DatenstrSraen eindeutig zu selek- 
tieren, 

, • 37 
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Die nachfolgenden Ausfiihrungen werden am Beispiel der Inter- 
facezellen aus PACT03 verdeutlicht . PACT03 beschreibt ein 
Verfahren zur Bundelung von VPU internen Bussen und dem Da- 
tenaustausch zwischen verschiedenen VPUs Oder VPUs und Peri- 
pherie (10) . 

Ein Nachteil des Verfahrens ist, daJ3 die Datenquelle beim 
Eitipfanger nicht mehr identif izierbar und auch die korrekte 
zeitliche Reihenfolge nicht sichergestellt ist. 
Folgende neue Verfahren losen dieses Problem, es konnen je- 
weils anwendungsspezifisch einige oder mehrere der beschrie- 
benen Methoden verwendet und ggf . kombiniert werden: 

a). Indentifikation der Datenquelle 

Figur 14 beschreibt beispielhaft eine derartige Identif ikati- 
on zwischen Arrays (PAs, .1408) aus rekonf igurierbaren Elemen- 
ten CPAEs) zweier VPUs. (1410, 1420) Ein Arbiter (1401) se- 
lektiert auf einem datensendenden Baustein (VPU, 1410) eine 
der moglichen Datenquellen (1405), urn diese uber einen Multi- 
plexer (1402) auf die 10 zu schalten. Die Adresse der Daten- 
quelle (1403) wird zusaramen mit den Daten (1404) an die 10 
gesendet. Der datenempf angende Baustein (VPU, 1411) selek- 
tiert entsprechend der Adresse (1403) der Datenquelle den 
entsprechenden Empf anger (140 6) tlber einen Demultiplexer 
(1407) . Bevorzugt kann mittels eines Ubersetzungsverfahxens, 
Z.B-. einer Lookup-Tabelle, die beispielsweise durbh eine 
iibergeordnete Konf igurationseinheit (CT) konfigurierbar ist, 
.eine flexible Zuordnung zwischen iibertragener Adresse (1403) 
und Empf anger (1406) ermoglicbt werden. 

Es soil ausdrucklich- darauf hingewiesen werden, dass den Mul- 
tiplexern (1402) vorgeschaltet und/oder den Demultiplexern 
(1407) nachgeschalte.t Interface-Baugruppen entsprechend 
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PACT03 und/oder PACT15 zur konf igurierbaren Aufschaltung von 
Bussystemen verwendet werden konnen. 

b) Exnhaltung der zeitlichen Relhenfolge 

bl) Das einfachste Verfahren ist, die Timestamp an die 10 zu 
sender, und die Auswertung dem Empfanger zu uberlassen, der 

die Timestamp- entgegenniirant . 

b2) In einer anderen Version wird die Timestamp vom Arbiter 
dekodiert, der nur den Sender mit der korrekten Timestamp se- 
lektiert und an die 10 sendet. Der Empfanger erhalt die Daten 
in der korrekten Reihenfolge. 

Die Verfahren nach a) und b) sind entsprechend den Anforde- 
rungen der jeweiligen Applikation zusainmen oder auch einzeln 
anwendbar . 

Weiterhin kann das Verfahren durch die Vergabe und Identifi- 
kation von Kanalnuitraiern erweitert werden. Eine Kanalnummer 
kennzeichnet einen bestimmten Senderbereich. Beispielsweise 
kann eine Kanalnuitraier aus mehreren Identif ikationen bestehen, 
wie Angabe des Busses innerhalb eines Bausteines, des Bau- 
steines, der Bausteingruppe. Dadurch ist auch in Anwendungen 
mit einer groiien Anzahl von PAEs und/oder einem Zusammen- 
schluB vieler Bausteine eine einfache Identif izierung gege- 
ben. • 

Vorzugsweise werden bei der Verwendung von Kanalnuinitiern nicht 
jeweils einzelne Datenworte tibertragen, sondern eine. Mehrzahl 
von Datenworten werden zu. einem Datenpaket zusammengef afit und 
sodann unter Angabe der. Kanalnummer ubertragen.. Das Zusammen- 
fassen der einzelnen Datenworte. kann beispielsweise mittels 
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eines geeigneten Speichers erfolgen, wie z.B. in PACT18 
(BURST-FIFO) beschrieben. 

Es soil darauf hingewiesen werden, dass die iibertragenen 
5 Adressen und/oder Timestamp bevorzugt als Kennungen oder Teil 
von Kennungen in Bussystemen nach PACT15 eingesetzt werden 
konnen . 

Vollumfanglich wird das Verfahren nach PACT07 in das Patent 
10 eingegliedert, welches durch das beschriebene Identifizie- 
rungsverfahren erweitert werden kann. Weiterhin sind die Da- 
teniibertragungsverfahren nach PACT18 vollumfanglich einge- 
gliedert, fur die das beschriebene Verfahren ebenfalls Anwen- 
dung finden kann. 



Aufba-u von Sequenzern 

Durch den Einsatz von TimeStamps oder vergleichbaren Verfah- 
ren wird ein einfacher Aufbau von Sequenzern aus Gruppen von 
20 'PAEs ermoglicht. Die Busse und Grundfunktionen der Schaltung 
werden konf iguriert, die Detailfiinktion und Datenadressen 
werden durch einen OpCode zur Laufzeit flexibel eingestellt. 

Mehrere diese Sequenzer lassen sich zugleich innerhalb eines 
25 PA (Arrays aus PAEs) aufbauen und betreiben. 

Die Sequenzer innerhalb einer VPU sind entsprechend des Algo- 
rithmus aufbaubar, Beispiele wurden in mehreren vollumfang- 
lich. eingegliederten Schriften des Erf inders bereits gegeben 
30 insbesondere soil auf PACT13 verwiesen werden, worin der Auf- 
bau von Sequenzern aus einer mehrzahl von PAEs beschrieben 
ist, was als beispielhafte Grundlage fttr die nachfolgende Be 
schreibung dient. 

40 
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Im Detail lassen sich zum Beispiel folgenden Ausgestaltungen 
von Sequenzern frei anpassen: 

• Art und Menge der lO/Speicher 

• Art und Menge der Interrupts (z.B. uber Trigger) 

• Befehlssatz 

• Anzahl und Art von Registern 

Ein einfacher Sequenzer laBt sich beispielsweise aus 

1. einer ALU zur Durchfiihrung der arithmetischen und logi- 
schen Funktionen 

2. einera Speicher zur Speicherung der Daten, quasi als Re- 
gistersatz 

3. einem Speicher als CodeQuelle fur das Programm (z.B. 
normaler Speicher nach PACT22/24/13 und/oder CT nach 
PACT10/PACT13 und/oder speziellen Sequenzern nach 
PACT04) 

aufbauen 

Ggf. wird der Sequenzer um lO-Elemente (PACT03, PACT22/24) 
erweitert. Zudem lassen sich weitere PAEs als Datenquellen' 
Oder -empf anger anschlieBen. 

Je nach eingesetzter CodeQuelle kann das Verfahren nach 
PACT08 zum Einsatz kommen, das das d'ifekte Setzen von OpCodes 
einer PAE uber Datenbusse, sowie die Angabe der Datenquel- 
len/-ziele zulaUt. 

Die Adressen der DatenquellenZ-ziele lassen sich beispiels- 
weise per TimeStampverfahren ubertragen. Weiterhin kann der 
Bus zur Ubertragung der Opcodes, verwendet werden. 

In einer beispielhaften Imp lementie rung nach Figur 15 besteht 
ein Sequenzer aus einem RAM zur Speicherung des Programmes 
41- 
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(1501), einer PAE zur Berechnung der Daten_ (ALU) (1502), ei- 
ner PAE zur Berechnung des Prograimnzeigers (1503), einem 
Speicher als Registersatz (1504) und einer 10 fur externe Ge- 
rate (1505) . 

5 Durch Verdrahtung entstehen zwei Bussysteme, ein Eingangsbus 
zur ALU THUS (1506) und ein Ausgangsbus von der ALU OBUS 
(1507) . Den Bussen zugeordnet ist jeweils eine 4-bit breite 
Timestamp, die die Quelle IBUS-ADR (1508) bzw. das Ziel OBUS- 
ADR (1509) adressiert. 

10 Von 1504 wird der Prograramzeiger (1510) an 1501 geftthrt. 1501 
lief art den OpCode (1511) zurtick. Der OpCode wird- in Befehle 
fiir die ALU (1512) und den Programmzeiger (1513), sowie die 
Datenadressen (1508, 1509) auf gespaltet . Zur Aufspaltung des 
Busses konnen die nachfolgend beschriebenen SIMD Verfahren 

15 und Bussysteme verwendet werden. 



1502 ist als Akkumulatormaschine ausgestaltet und unterstutzt 

beispielsweise folgende Funktionen: 

Id <reg> Lade Akkumulator (1520) von Register 

20 add_sub <reg> Addiere/Subtrahiere Register z.um Akkumulator 
sl_sr Akkumulator schieben • 

rl_rr Akkumulator rotieren • 

st <reg> Schreibe Akkumulator in Register 

Ftir die Befehle sind 3-bit notwendig. ..gin viertes Bit gibt 

25 die Art der Operation an: addieren Oder subtrahieren, rechts- 
oder linksschieben. 

1502 liefert den ALU-Status carry auf Triggerport 0 und zero 
auf Triggerport 1. . 

30 

<reg> ist f olgendermallen kodiert: 
0..7 Datenregister in 1504 

8 Eingangsregister (1521) Programmzeigerberechnung 

42 
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9 lO-Daten 

10 lO-Adressen 

FQr die Adressen werden 4 bits benotigt. 

5 1503 unterstutzt folgende Operationen iiber den Programmzei- 
ger: 

jmp Springe auf Adresse im Eingangsregister (2321) 

jtO Springe auf Adresse im Eingangsregister 

angegeben ist, wenn TriggerO gesetzt 
10 jtl Springe auf Adresse im Eingangsregister 

angegeben ist, wenn Triggerl gesetzt 
jt2 Springe auf Adresse im Eingangsregister 

angegeben ist, wenn Trigger2 gesetzt 
jmpr Springe zu PP plus Adresse im Eingangsregister 

15 Fur die Befehle sind 3-bit notwendig. Ein viertes Bit gibt 
die Art der Operation an: addieren oder subtrahieren. 



Der Opcode 1511 wird also in 3 Gruppen zu je 4 bit zerlegt: 
(1508, 1509), 1512, 1513, 1508 und 1509 konnen bei dem gege- 
20 benen Instruktionssatz identisch sein. 1512, 1513 werden bei- 
spielsweise an das C-Register der PAEs gefuhrt (vgl. 
PACT22/24) und innerhalb der PAEs ais Befehl dekodiert (vgl. 
PACT08) . 

25 Entsprechend PACT13 und/oder PACTll kann der Sequenzer in ei- 
ne komplexere Struktur eingebauf v^erden. Beispielsweise sind 
durch <reg> - 11, 12, 13, 14,, 15 weitere Datenquellen adres- 
sierbar, die auch von anderen PAEs staramen konnen. Ebenfalls 
lassen.sich weitere Datenempf anger adressieren. Datenquellen 

30 und -empf anger konnen beliebig, insbesondere PAEs sein. 

Es soil angemerkt sein, daS die aufgezeigte. Schaltung nur 12- 
bit des Opcodes 1511 benStigt. Bei einer 32-bit Architektur 
43 
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stehen damit 20-bit optional zur Erweiterung der Grundschal- 
tung zur Verfiigung. 

Die Multiplexerfunktionen der Busse konnen entsprechend des 
5 beschriebenen TimeStarapverf ahrens implementiert werden. Ande- 
re Ausgestaltungen sind ebenfalls mSglich, beispielswiese 
konnten PAEs als Multiplexerstuf en eingesetzt werden. 

10 SIMD Rechezxwerke tmd SIMD Bussystems 

.Bei der Verwendung von rekonfigurierbaren Technologien zur 
Verarbeitung von Algorithman entsteht ein wesentliches Para- 
doxon: Einserseits sind urn eine mdglichst hohe Rechenleistung 
zu erhalten komplexe ALUs erforderlich, wobei der Aufwand fur 
15 die Rekonfiguration minimal sein- sollte; andererseits sollten 
die ALUs mdglichst einfach sein urn effiziente Verarbeitung 
auf Bitebene zu ermdglichen; andererseits sollte die Rekonfi- 
guration und Datenverwaltung derart intelligent und schnell 
erfolgen, da3 sie effizient und einfach zu programmieren ist. 

20 

Bisherig'e Technologien verwenden a) sehr kleine ALUs mit we- 
nig Rekonfigurationsunterstutzung(FPGAs) und sind auf Bitebe- 
ne effizient, b) groSe ALUs (Cameleon) mit wenig Rekonfigura- 
tionsunterstutzung, c) eine Mischung a,us groSen ALUs und 
25 kleinen ALUs mit Rekonfigurationsunterstutzung und Datenver- 
waltung (VPUs) . 

Da die VPU-Technologie die leistungsfahigste Technik dar- 
stellt, soil auf ihr aufbauendi ein optimiertes Verfabren ge- 
schaffen werden.. Es soil ausdriicklich darauf hingewiesen wer- 
30 den, da3 dieses Verfahren ebenfalls fur die anderen Architek- 
turen eingesetzt werden kann. 
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Per Flachenaufwand zur effizienten Steuerung von Rekonfigura- 
tion ist mit einer Menge von ca. 10.000 his 40.000 Gattern 
pro PAE vergleichsweise hoch. Unterhalb dieser Gattermenge 
lassen sich nur einfache liblaufsteuerungen realsieren, die 
die Programaierbarkeit von VPUs erheblich einschranken und 
eine Verv/endung als General Purpose Prozessor ausschlie3en. 
Sofern auf eine besonders schnelle Rekonfiguration abgezielt 
wird, miissen zusatzliche Speicher vorgesehen warden^ wodurch 
die erforderliche Gattermenge nochmals erheblich ansteigt. 

■ Urn sin ordentliches Verhaltnis zwischen ■ RekdhfigXirationsauf- 
wand und Rechenleistung zu erhalten, ist somit der Einsatz 
von gro3en ALUs (viel Funktionalltat und/oder groBe Bitbrei- 
te) zwingend erforderlich . Werden die ALUs jedoch zu groli , 
sinkt die nutzbare parallele Rechenleistung pro Chip. Bei zu 
kleinen ALUs (z.B. 4-bit) ist der Aufwand zur konfiguration 
aufwendiger Funktionen (z.B. 32-bit Multiplikation) zu hoch. 
Insbesondere der Verdrahtungsaufwand wachst in koimerziell 
nicht mehr sinnvolle Bereiche. 



11.1 Einsatz von SIMP Rechenwerken 

IM ein ideales Verhaltnis zwischen der Verarbeitung von klei- 
nen Bitbreiten, Verdrahtungsaufwand un4 der Konfiguration 
aufwendiger Funktionen zu erhalten, wird der Einsatz von 
SIMD-Rechenwerken verges chlagen. Dabei werden Rechenw^erke der 
Breite m derart zerteilt, daR n einzelne' BlScke der Breite b 
= m/n entstehen. Durch Konfiguration wird je Rechenwerk vor- 
gegeben, ob ein Rechenwerk unzert&ilt arbeiten soil, oder ob 
das Rechenwerk in einen oder mehrere Bldcker j.eweils ,gleicher 
Oder unterschiedlicher Breite zexlegt sein soil. Mit anderen 
Worten, kann ein Rechenwerk auch derart zerlegt sein, da3 in- 
nerhalb eines Rechenwerkes unterschiedliche Wortbreiten zu- 
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gleich konfigvtriert sind (z.B. Breite 32-bit, zerlegt in 
lxl6-r 1x8- und 2x4-bit) . Die Daten werden derart zwischen 
den PAEs ubertragen, daB die zerlegten Datenworte (SIMD-WORD) 
zu Datenworten der Bithreite m zusammengefaSt werden und als 
5 Paket iiber das Netzwerk iibertragen werden. 

Das Netzwerk ubertragt immer ein komplettes Paket, d.h. alle 
Datenworte sind innerhalb sines Paketes giiltig, und werden 
nach dem bekannte Handshake-Verfahren iibertragen. 

10 

1 1.1. r Umsortleren der SIMD-WORD 

Fur einen effizienten Einsatz der von SIMD-Rechenwerken ist 
sine flexible und effiziente Umsortierung der SIMD-WORD un- 
tereinander innerhalb eines Busses Oder zwischen unterschied- 

15 lichen Bussen erforderlich. 

Die Busschalter nach Figur 5 hzw. 7b, c konnen derart modlfi- 
ziert werden, daB eine flexible Vernetzung der einzelnen 
SIMD-WORD moglich ist. Dazu werden die Multiplexer entspre- 
chend den Rechenwerken teilbar ausgelegt, derart da3 durch 

20 Konfiguration die Teilung bestimmt werden kann. Hit anderen 
Worten, wird beispielsweise nicht ein Multiplexer der Breite 
m. pro Bus verwendet, sondern n einzelne Multiplexer der Brei- 
te b = m/n. Es ist nunmehr moglich, die Datenbusse fUr b bit 
Breite zu konfigurieren. Durch die Matrixstruktur der Busse 

■ 25 (Figur 5) wird eine einfache Oaisortierung der Daten ermog- 
licht, wie in Figur 16c dargestellt. Eine erste PAE sendet 
Daten uber zwei Busse (1601, 1602) die in je 4 Teilbusse un- 
terteilt sind. Ein BUssystem (1603) -verschaltet die -einzelnen 
Teilbusse mit zusatzlichen auf dem Bus befindlichen Tellbus- 

30 se. Fine zweite PAE erhalt unterschiedlich sortierte Teilbus- 
se an ihren beiden Eingangsbussen (1604, 1605). 
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Die Handshakes der Busse zwischen zwei PAEs mit beispielswei- 
se 2-fach SIMD Rechenwerk (1614, 1615) warden in Figur 16a 
logisch derart verknupft, daB ein gameinsamer Handshake 
(1610) fur den neu geordneten Bus (1611) aus den Handshakes 

5 der ursprunglichen Busse generiert wird. Beispielswelse kann 
ein RDY fiir einen neu sortierten Bus aus einer logischen UND- 
Verkniipfung aller RDYs der Daten fiir diesen Bus liefernden 
Busse generiert werden. Ebenso kann beispielswelse das ACK 
eines Daten liefernden Busses aus einer UND-Verkniipfung der 

10 ACKs aller Busse generiert werden, die die Daten weiterverar- 
beiten. 

. Der gemeinsame Handshake steuert eine Steuereinheit (1613) 
fur die Verwaltung der PAE (1612) an. Der Bus 1611 wird PAE 
intern auf zwei Rechenwerke (1614, 1615) aufgeteilt. 

15 

In einer ersten Ausfuhrungsvariante finden die Verknupfungen 
der Handshakes innerhalb eines jeden Busknotens statt. Da- 
durch wird as moglich einem Bussystem der Breite m, bestehend 
aus n Teilbussen der Breite b, nur ein Handshake-Protokol zu- 
20 zuordnen. 

In einer weiteren besonders bevorzugten Ausgestaltung werden 
samtliche Bussysteme in der Breite b ausgestaltet, die die 
kleinste realisierbare Ein-/Ausgabe D&tenbreite b eines SIMD- 

25 Word entspricht. Entsprechend der Breite der PAE Datenpfade 
(m) besteht nunmehr ein Ein-/Ausgangsbus a.us m/b = n Teilbus- 
sen der Breite b. Beispielswelse besi'tzt eine PAE- mit 3 32bit 
Eingangsbussen und 2 32 bit Ausgangsbusse bei einer kleinsten 
SIMD-Wortbreite von 8 tatsMchlich 3x4 8bit Eingangsbusse und 

30 2x4 Sbit Ausgangsbusse. 

Jedem der Teilbusse sind samtliche Handshake- und Steuersi- 
gnale zugeordnet. 
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Der Ausgang einer PAE vezsendet die mit denselben Steuezsi- 
gnalen fiir samtliche n Teil-Busse. Eingehende Quittlerungs- 
signale a Her Teilbusse werden miteinander logische ver- 
knilpft, z.B. durch sine UND-Funktion . Die Bussysteme konnen 

5 jeden Teilbus frei verschalten und unabhangig routen. Die 

Bussystem und insbesondere die Busknoten verarbeiten und ver~ 
kniipfen die Handshake-Signale der einzelnen Busse unabhangig 
ihres Routings r ihrer Anordung und Sortierung nicht. 
Bei einer PAE eingehenden Daten werden die Steuersignale 

10 samtlicher n Teilbusse darart miteinander verkniipft, dass ein 
allgemeingultiges Steuersignal quasi .als .Bussteuersignal- fiir 
den Datenpfad generiert wird. 

Beispielsweise konnen in einer "dependend" Betriebsart gemaJR 
Definition RdyHold-Stufen fur jeden einzelnen Datenpfad ein- 
15 gesetzt werden und erst wenn samtliche RdyHold-Stufen anste- 
hende Daten signalisieren, werden diese von der PAE ubernom- 
men . 

In einer "independend" Betriebsart gemaB Definition werden- 
die Daten jedes Teilbusses einzelnin Eingangsregister der 

20 PAE geschrieben und quittiert, wodurch der Teilbus sofort fiir 
eine nachste Dateniibertragung frei ist. Das Vorhandensein al- 
ler erfordeflichen Daten von alien Teilbussen in den Ein- 
gangsregistern wird innerhalb der PAE durch geeignete logi- 
sche Verknupfung der fur jeden Teilbus im Eingangsregister 

25 gespeicherten RDY-Signale detektiert, woraufhin die PAE mit 
der Datenverarbeitung beginnt. 

Der wesentliche daraus resultierende Vorteil dieses Veffah- 
rens ist, dass die SIMD-Eigenschaft von PAEs keinei^lei beson- 
30 deren EinfluB auf das verwendete Bussystem aufweist. Es wer- 
den lediglich wie in Figur 16b dargestellt mehr Busse (n) 
(1620) einer geringeren Breite (b) und die zugeordneten 
Handshakes (1621) bendtigt. Die Verschaltung selbst bleibt 
48 . 
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unberiihrt. Die PAEs verknupfen und verwalten die Steuerlei- 
tungen lokal. Dadurch entfallt der zusatzliche Hardwareauf- 
wand in den Bussystemen zur Verwaltung und/oder Verknupfung 
der Steuerleitungen . 
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Titel: Verfahren zur Steuerung der Ubertragung von 

DatenstrSmen 

15 

Patentanspruche 

1. Verfahren zum Steuern von pipelineartigen Datenverarbei- 
tungen und/oder Bussystemen dadurch gekennzeichnet, dass 

20 abwechselnd unterschiedliche Protokolle angewendet werden, urn 
eine Datenverarbeitung in jedem Takt zu ermoglichen. 

2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass 
ein Protokoll die Annahme der Daten du.rch einen EmpfSnger be- 

25 statigt . 

3. Verfahren nach Anspruch 1-2, dadurch gekennzeichnet, dass 
ein Protokoll die voraussichtliche Annahme der Daten durch 
einen Empf anger bestatigt. 

30 

4. Verfahren nach Anspruch 1-3, dadurch gekennzeichnet, dass 
wenn die ftlr eine voraussichtliche Abnahme bestatigten Daten 
durch einen Empfanger nicht angenommen werden konnen, diese 

50 
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in ein Puf ferregister geschrieben warden und danach bis zur 
Entleerung des Pufferregisters keine weitere voraussichtliche 
Datenannahme durch einen Empf anger mehr bestatigt wird. 

5. Verfahren nach Anspruch 1-4, dadurch gekennzeichnet, dass 
das Pufferregister sobald der Empfanger wieder Daten annimmt 
geleert wird, bevor weitere andere Daten an den Empfanger ge- 
sendet werden. 

6. Verfahren zum Ubertragen von Daten eines Senders an mehre- 
re Sender, dadurch gekennzeichnet, ' dass 

die Quittierung der Datenabnahme aller Sender logisch ver- 

kniipft wird. 

7. Verfahren zum Ubertragen von Daten mehrerer Senders an ei- 
nen Sender, dadurch gekennzeichnet, dass 

die Reihenfolge der Ubertragungsanf orderungen mehrerer Sender 
gespeichert wird und die Ubertragung der Daten in der exakten 
Reihenfolge ermSglicht wird. 

8. Verfahren zum Ubertragen von Daten mehrerer Senders an ei- 
nen Sender, dadurch gekennzeichnet, dass 

jedem Sender bei einer erfolgten Buszugrif f sanforderung eine 
Sendernummer zugeteilt wird, die seine. Position in der Reihe 
der Sender bezeichnet. 

9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass 
der Reihe nach alle Sendernummern von einem Aufrufnummernge- 
nerator aufgerufen werden, indem alien Sendern die aktuelle 
Aufrufsnummer mitgeteilt wird, jeder Sender diese mit seiner 
Sendenuimer vergleicht. und bei Obereinstimmung den Bus bean- 
spracht . 

51 • 
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10. Verfahren nach Anspruch 8, dadurch gekennzeichnet , dass 
die Sendenmnmern pro Zeiteinheit weitergezahlt werden. 

11. Verfahren nach Anspruch 8-9, dadurch gekennzeichnet, dass 
der Bus arbitriert wird, wenn mehrere Sender dieselbe Sender- 
nummer zugeteilt haben. 

12. Verfahren nach Anspruch 8-9 und 11, dadurch gekennzeich- 
net, dass 

der Aufrufnummerngenerator erst weiterzahlt wenn kein Sender 
den Bus mehr arbitriert hat. 

13. Verfahren zum Verwalten von Datenstromen, dadurch gekenn- 
zeichnet, dass 

den Daten eine Kennung zugewiesen wird. 

14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass 
die Kennung eine zeitliche Reihenfolge festlegt. 

15. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass 
die Kennung eine Herkunfts- oder Zieladresse festlegt. 

16. Verfahren nach Anspruch 13-14, dadurch gekennzeichnet, 
dass 

anhand der Kennung das Zusairatienfahren der Daten in der ur- 
sprunglichen Reihenfolge mittels eines Bussystems definiert 
wird. 

17. Verfahren nach Anspruch 13-14, dadurch gekennzeichnet, 

dass 

anhand der Kennung das Zusainmenfuhren der Daten in der ur- 
sprunglichen Reihenfolge mittels eines Speichers definiert 
wird. 
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18. Verfahren nach Anspruch 13-17, dadurch gekermzeichnet, 
dass 

die Kennung iiber die peripheren Interface versendet wird. 

19. Verfahren nach Anspruch 13-17, dadurch gekennzeichnet, 

dass 

die Kennung in Speicher zusaitmien mit den Daten geschrieben 
wird. 

20. Verfahren zum Partitioniern von Graphen, dadurch gekenn- 
zeichnet, dass 

an den Schnittkanten Speicher eingefiigt werden. 

21. Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass 
je Kante eines Graphen ein Speicher verwendet wird. 

22. Verfahren nach Anspruch 20, dadurch gekennzeichnet, dass 
Multiplexer mehrere Kanten Vor einem Speicher zusammenf assen. 

23.. Verfahren nach. Anspruch 20-22, dadurch gekennzeichnet, 
dass 

eine Kennung mit den Daten gespeichert wird. 

24. Verfahren zum Aufbau von Sequenzern aus mehreren. PAEs, da- 
durch gekennzeichnet, dass 

.die den Daten zugeordnete Kennung zur Adressierung von Daten- 
quellen und/oder Datenzielen dient. 

25. Verfahren z'dm Aufbau von Sequenzern aus mehreren PAE.S, da- 
durch gekennzeichnet, dass 

die den Daten zugeordnete Kennung den Datenvexarbeitungbef ehl 
beinhaltet . 
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26. Pipelineartiges Datenverarbeitungsverf ahren, dadurch ge- 
kennzeichnet, dass 

den Datenverarbeitungselementen FIFO-Puffer zur zeitlichen 
Entkopplung zwischengeschaltet sind- 

27. Verfahren nach Anspruch 26, dadurch gekennzeichnet, dass 
die FIFO-Puffer konf igurierbare Latenzzeiten aufweisen, um Da- 
tenpfade in ihrer Verzogerung auszubalancieren. 

28. FIFO-Speicherverfahren, dadurch gekennzeichnet, dass 
der Auslesevorgang bei einem fraher ausgelesenen Datenwort 
wieder aufgenommen werden kann. 

29. FIFO-Speicherverfahren, dadurch gekennzeichnet, dass 

der Einschreibvorgang bei einem frtiher eingeschriebenen Daten-' 
wort wieder aufgenommen werden kann. 

30. Verfahren nach Anspruch 28-29, dadurch gekennzeichnet, 
dass 

ein Sicherungsregister die Adressposition des Datenwortes si- 
chert, an dessen Adresse ein Vorgang wiederholt werden kann. 

31. Verfahren nach Anspruch 28-30, dadurch gekennzeichnet, ■ 
dass 

der Leer- Oder Vollzustand des FIFOs durch Vergleich itiit dem 
.Sicherungsregister getestet wird. 

32. Verfahren nach Anspruch 28-31, dadurch gekennzeichnet,;. 
dass • ■ ■ ■ 

das Sicherungregister beliebig auf jede Adresse gesetzt werden 

kann. ■ • , 
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